Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 56 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
56
Dung lượng
2,55 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM NGÔ MINH TRÍ ỨNG DỤNG GOM CỤM FUZZY C-MEANS TRONG PHÂN TÍCH DỮ LIỆU MARKETING LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60480201 \ TP HỒ CHÍ MINH, tháng 03 năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM NGÔ MINH TRÍ ỨNG DỤNG GOM CỤM FUZZY C-MEANS TRONG PHÂN TÍCH DỮ LIỆU MARKETING LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60480201 Cán hƣớng dẫn khoa học: PGS TS QUẢN THÀNH THƠ TP HỒ CHÍ MINH, tháng 03 năm 2016 CÔNG TRÌNH ĐƢỢC HOÀN THÀNH TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hƣớng dẫn khoa học : PSG.TS Quản Thành Thơ (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ đƣợc bảo vệ Trƣờng Đại học Công nghệ TP HCM ngày 20 tháng 03 năm 2016 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên GS.TSKH Hoàng Văn Kiếm PGS.TS Võ Đình Bảy TS Lê Văn Quốc Anh TS Lê Tuấn Anh TS Nguyễn Thị Thúy Loan Chức danh Hội đồng Chủ tịch Phản biện Phản biện Ủy viên Ủy viên, Thƣ ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn đƣợc sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƢỜNG ĐH CÔNG NGHỆ TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày … tháng… năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : Ngô Minh Trí Giới tính : Nam Ngày, tháng, năm sinh : 25 – 11 - 1990 Nơi sinh : Tây Ninh Chuyên ngành : Công Nghệ Thông Tin MSHV : 1341860055 I - Tên đề tài: ỨNG DỤNG GOM CỤM FUZZY C-MEANS TRONG PHÂN TÍCH DỮ LIỆU MARKETING II- Nhiệm vụ nội dung: Nghiên cứu thuật toán Fuzzy C-Means xây dụng ứng dụng phân tích liệu marketing III - Ngày giao nhiệm vụ: 03/04/2015 IV- Ngày hoàn thành nhiệm vụ: 15/12/2015 V- Cán hƣớng dẫn: PGS.TS Quản Thành Thơ CÁN BỘ HƢỚNG DẪN (Họ tên chữ ký) PGS.TS Quản Thành Thơ KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết đánh giá, nhận xét đề xuất cải tiến nêu Luận văn trung thực chƣa đƣợc công bố công trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn nhƣ trích dẫn hay tài liệu học thuật tham khảo đƣợc cảm ơn đến tác giả hay ghi rõ ràng nguồn gốc thông tin trích dẫn Luận văn Học viên thực Luận văn Ngô Minh Trí ii LỜI CÁM ƠN tận tình PGS.TS Quản Thành Thơ Xin gửi lời đến toàn thể quý thầy cô Tôi xin gởi lời cảm ơn đến gia đình, bạn bè quan tâm giúp đỡ suốt thời gian học tập nghiên cứu hoàn thành luận văn Luận văn tránh khỏi sai sót, mong nhận đƣợc ý kiến đóng góp ngƣời cho luận văn đƣợc hoàn thiện Tôi xin chân thành cảm ơn TP Hồ Chí Minh, tháng 12 năm 2015 NGÔ MINH TRÍ iii TÓM TẮT Trong bối cảnh thị trƣờng kinh tế ngày cạnh tranh, Marketing mang lại mối quan hệ lợi ích cộng huởng ngƣời tiêu dùng doanh nghiệp Marketing truyền thống dần đƣợc thay marketing đại Bên cạnh việc cải tiến, tiêu thụ sản phẩm truyền thống, ngày doanh nghiệp hƣớng đến nhu cầu khách hàng, tập trung vào thị trƣờng định Điều giúp doanh nghiệp có lợi nhuận ổn định chiến lƣợc kinh doanh lâu dài Nghiên cứu tập trung vào việc khai thác liệu lớn đa dạng marketing Dùng kỹ thuật gom cụm để phân loại liệu vào cụm Phân tích mối quan hệ cụm liệu từ khám phá đƣợc tri thức Phƣơng pháp gom cụm Fuzzy CMeans đƣợc chọn ƣu điểm mềm dẻo để xác định liệu thuộc cụm nhiều cụm mà phƣơng pháp gom cụm truyền thống chƣa đáp ứng đƣợc Đề tài “Ứng dụng gom cụm Fuzzy C-Means phân tích liệu marketing” giúp phân tích liệu phức tạp marketing Kết thực nghiệm cho thấy từ tập liệu mẫu chƣa đƣợc phân loại với thuộc tính có vai trò nhƣ Sau chƣơng trình phân tích xử lý, cách dùng vector trọng số, ngƣời dùng tuỳ theo nhu cầu phân loại liệu vào cụm khác Từ giúp cho việc phân tích liệu họ đơn giản iv ABSTRACT Now, business environment competitive competitive Marketing provides relationship and benefits between consumers and businesses Marketing traditions were replaced by modern marketing Besides improvements, consumption products of Traditional business In today's global business economy, understand your customers and focusing on certain markets are necessary This will help businesses have stable profits and long-term business strategy This study of data mining for marketing Using clustering techniques for classifying data into clusters Analysis of the relationship between clusters and data that found new knowledge Method of Fuzzy C-Means clustering are selected because of their competitive flexibility to identify the data of a cluster or multiple clusters that traditional clustering methods can not it Project of "Application Fuzzy C-Means clustering in marketing data analysis" will help analyze of marketing data Practical results present the sample dataset with the attributes with the same role.After processing program, using vector space model, depending on user can be classified data into different clusters That works their data analysis simpler v MỤC LỤC TÓM TẮT iii ABSTRACT iv DANH MỤC CÁC BẢNG viii DANH MỤC CÁC HÌNH ix CHƢƠNG 1.1/ Giới thiệu đề tài: 1.1/ Tính cấp thiết đề tài: 1.2/ Mục tiêu đề tài: 1.3/ Cấu trúc luận văn: CHƢƠNG TỔNG QUAN 2.1/ Nghiên cứu marketing: 2.1.1/ Thu thập liệu: 2.1.2/ Phân loại liệu: 2.2/ Tổng quan gom cụm: 2.2.1/ Các khái niệm: 2.2.2/ Một số khái niệm tiếp cận phân cụm liệu: 2.2.3/ Các ứng dụng phân cụm: CHƢƠNG CƠ SỞ LÝ THUYẾT 10 3.1/ Đề tài nghiên cứu giới: 10 3.2/ Thuật toán Fuzzy C-Means: 10 3.2.1/ Lý thuyết fuzzy logic: 10 3.2.2/ Lý thuyết gom cụm (Clustering): 11 3.2.3/ Thuật toán K-Means: 12 vi 3.2.4/ Thuật toán Fuzzy C-Means: 13 CHƢƠNG HỆ THỐNG PHÂN TÍCH DỮ LIỆU DỰA TRÊN FCM 19 4.1/ Sơ đồ tổng thể hệ thống: 19 4.2/ Mô hình không gian vector: 22 4.3/ Alpha-Cut sets: 23 4.4/ Crisp sets Fuzzy sets: 24 4.4.1/ Tập rõ (Crisp sets): 25 4.4.2/ Tập mờ (fuzzy sets): 26 4.5/ Chƣơng trình gom cụm Fuzzy C-Means: 28 CHƢƠNG THỰC NGHIỆM – ĐÁNH GIÁ KẾT QUẢ 31 5.1/ Thực nghiệm: 31 5.2/ Đánh giá kết quả: 40 CHƢƠNG KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 41 6.1/ Kết luận: 41 6.2/ Hƣớng nghiên cứu tiếp theo: 41 28 4.5/ Chƣơng trình gom cụm Fuzzy C-Means: Chạy bƣớc chƣơng trình với CSDL: Hình 4-8 Mô tả bƣớc tính TF-IDF 29 Bảng liệu dataInput_IS chứa liệu đầu vào: Bảng 4-2 Bảng liệu dataInput_IS Tên thuộc tính Kiểu liệu Chú thích ID Int Khoá chính, tự động tăng dần CONTENT Nvarchar[MAX] Chứa nội dung văn đƣợc thu thập từ vấn khách hàng, quan sát, báo cáo kinh doanh Bảng liệu TermFrequency chứa tần số xuất thuật ngữ t tài liệu so với tài liệu khác tập liệu đầu vào Bảng 4-3 Bảng liệu TermFrequency Thuộc tính Kiểu liệu Chú thích ID Int Khoá chính, tự động tăng dần Term Nvarchar[500] Thuật ngữ văn ID_DOCUMENT gồm có từ,hai từ, ba từ ID_DOCUMENT Int Chứa khoá văn bảng dataInput_IS FrequencyInDocument Int Số lần xuất thuật ngữ Term tài liệu ID_DOCUMENT FrequencyInAll_Document Int Số lần xuất thuật ngữ Term tất tài liệu tập liệu đầu vào 30 Bảng liệu TF_IDF chứa kết tính toán theo phƣơng pháp TF_IDF cho thuật ngữ văn tập liệu đầu vào Bảng 4-4 Bảng liệu TF-IDF Thuộc tính Kiểu liệu Chú thích ID Int Khoá chính, tự động tăng dần Term Nvarchar[500] Thuật ngữ cần tính theo phƣơng pháp tf-idf tài liệu ID_DOCUMENT ID_DOCUMENT Int Tài liệu chứa thuật ngữ Term tập liệu đầu vào TF_IDF Float Giá trị thuật ngữ đƣợc tính theo phƣơng pháp tf-idf Chƣơng trình tính toán xuất kết đầu tập fuzzy sets tập crisp sets tuỳ theo kết mong muốn 31 CHƢƠNG THỰC NGHIỆM – ĐÁNH GIÁ KẾT QUẢ Chƣơng trình Fuzzy C-Means đƣợc xây dựng ngôn ngữ C Sharp Visual Studio 2012 với giao diện nhƣ sau: Hình 5-1 Chƣơng trình Fuzzy C-Means 5.1/ Thực nghiệm: Demo với chƣơng trình Fuzzy C-Means: Đầu tiên, chƣơng trình chạy với CSDL đƣợc import vào SQL Server Management Studio 2008 Chƣơng trình sử phân tách chuỗi liệu nhập vào thành Term (một từ, hai từ, ba từ…) Kế tiếp FrequencyInDocument, FrequencyInAll_Document đƣợc tính toán Tiếp theo, sử dụng công thức TF-IDF, ta tính đƣợc vector trọng số văn Chƣơng trình sau thực thi xong giải thuật Fuzzy C-Means tự động kết xuất tập tin excel (.xls) theo định dạng 32 Hình 5-2 Kết chƣơng trình Fuzzy C-Means excel Với V1,V2,V3… vector (tƣơng ứng với tài liệu tập liệu đầu vào) C1,C2,C3… cụm Tiếp theo, chƣơng trình trải qua α-cut xuất kết đầu tập fuzzy sets tập crisp sets tuỳ theo kết mong muốn Thực nghiệm 1: Giả sử ngƣời dùng mong muốn thu tập fuzzy sets Bắt đầu thuật toán với tham số: tham số mờ hoá m=2, tiêu chuẩn hội tụ (epsilon)= 0.01, chọn 1533 khách hàng (n=1533) có 13 thuộc tính (k=13), đƣợc phân vào cụm (c=3) Khi kết gom cụm nhƣ sau: 33 Hình 5-3 Kết với số cụm Cũng với tham số nhƣ trên, phân thành cụm kết thu đƣợc nhƣ sau: Hình 5-4 Kết với số cụm Thực nghiệm cho thấy, phân nhiều cụm so với số cụm đối tƣợng cụm mà có độ thuộc xa thƣờng tách cụm khác 34 Thực nghiệm 2: Ở thực nghiệm trọng số cho thuộc tính nên ta chƣa thấy đƣợc đặc trƣng cụm Trong thực nghiệm này, điều chỉnh độ thuộc lên cao để thu kết tốt Hình 5-5 Mô tả điều chỉnh trọng số TF-IDF 35 Kết thu đƣợc : Hình 5-6 Kết sau điều chỉnh trọng số Qua bƣớc phân tích này, rõ ràng độ thuộc 0.984 thể đặc trung hẳn độ thuộc 0.769 Thực nghiệm 3: Giả sử khách hàng mong muốn thu đƣợc tập crisp sets Bắt đầu thuật toán với tham số: tham số mờ hoá m=2, tiêu chuẩn hội tụ (epsilon)= 0.33, chọn 1533 khách hàng (n=1533) có 13 thuộc tính (k=13), đƣợc phân vào cụm (c=3) Khi kết gom cụm nhƣ sau: 36 Hình 5-7 Kết liệu crisp sets Dễ dàng nhận thấy liệu thu đƣợc trở thành tập rõ hàm thành viên Thực nghiệm 4: Thực nghiệm diễn tả trình alpha-cut liệu Với tham số α lần lƣợt α=0.01, α=0.02, α=0.03, α=0.04, α=0.05, α=0.06 Để từ làm rõ liệu với hàm thành viên định đặc trƣng cụm Đầu tiên, tính khoảng cách cụm 37 Hình 5-8 Khoảng cách cụm với α=0.01 Làm tƣơng ứng với tham số α khác, ta đƣợc bảng sau: 0.01 c12 c23 0.34 0.32 0.42 0.06 0.36 0.34 0.25 0.03 c12 c13 0.02 0.01 0.01 0.02 0.02 0.02 c23 0.35 0.32 0.4 0.06 0.37 0.34 0.25 0.02 c12 0.36 0.31 0.42 0.05 0.34 0.36 0.27 c13 0.02 0.01 0.04 0.01 c23 0.34 0.32 0.42 0.06 0.36 0.34 0.25 0.04 c12 0.35 0.3 0.4 0.05 0.33 0.34 0.26 c13 0.02 0.01 0.01 0.02 0.02 0.02 c23 0.35 0.32 0.4 0.06 0.37 0.34 0.25 0.05 c12 0.36 0.31 0.42 0.05 0.34 0.36 0.27 c13 0.02 0.01 0.04 0.01 c23 0.35 0.32 0.4 0.06 0.37 0.34 0.25 0.06 c12 0.35 0.3 0.4 0.05 0.33 0.34 0.26 c23 0.35 0.32 0.4 0.06 0.37 0.34 0.25 Hình 5-9 Khoảng cách cụm α Kế tiếp tính trung bình cụm với công thức: TB c13 0.02 0.01 0.04 0.01 C12 C 23 C13 0.35 0.3 0.4 0.05 0.33 0.34 0.26 c13 0.02 0.01 0.04 0.01 0.35 0.3 0.4 0.05 0.33 0.34 0.26 38 Clusters V1 V2 V3 V4 V5 V6 V7 0.01 0.02 0.03 0.04 0.05 0.06 0.24 0.24 0.233333 0.233333 0.233333 0.233333 0.213333 0.213333 0.213333 0.213333 0.213333 0.213333 0.28 0.28 0.266667 0.266667 0.266667 0.266667 0.04 0.04 0.04 0.04 0.04 0.04 0.24 0.24 0.246667 0.246667 0.246667 0.246667 0.24 0.24 0.226667 0.226667 0.226667 0.226667 0.18 0.18 0.173333 0.173333 0.173333 0.173333 Hình 5-10 Ma trận trung bình vector Nhận xét: biến α tăng, khoảng cách trung bình cụm thu hẹp lại (nhỏ dần) Điều chứng tỏ khoảng cách vector thuộc cụm tâm cụm tƣơng ứng ngắn lại Tăng dần giá trị α tìm đƣợc khoảng cách ngắn Dữ liệu đƣợc phân vào cụm xác Chúng ta thấy tăng α đến giá trị đó, khoảng cách cụm không thay đổi nhiều Ngoài ra, vector có thay đổi giá trị α khoảng cách không thay đổi Những vector định đặc trƣng cụm Bảng vector trọng số bảng liệu thực tế sau giúp ta thấy rõ điều V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18 V19 V20 Vector trọng số ( 0.27 ; 0.17 ; 0.14 ; 0.06 ; ; 0.01 ; ; ; ; 0.42 ; ; ; ) ( 0.27 ; 0.3 ; 0.05 ; 0.06 ; ; 0.01 ; ; ; ; 0.42 ; ; ; ) ( 0.42 ; 0.21 ; 0.05 ; ; ; 0.01 ; ; ; 0.35 ; ; ; ; ) ( 0.27 ; ; 0.14 ; ; ; ; 0.42 ; ; ; ; ; ; ) ( 0.3 ; 0.18 ; 0.05 ; 0.18 ; ; 0.01 ; ; ; ; 0.42 ; ; ; ) ( 0.35 ; 0.18 ; 0.14 ; 0.18 ; ; 0.01 ; ; ; ; 0.42 ; ; ; ) ( 0.27 ; 0.3 ; 0.23 ; 0.18 ; 0.01 ; ; ; ; ; 0.42 ; ; ; ) ( 0.27 ; 0.23 ; 0.05 ; 0.21 ; ; 0.01 ; ; ; ; 0.35 ; ; ; ) ( 0.42 ; 0.17 ; 0.14 ; 0.06 ; ; 0.01 ; ; ; ; 0.27 ; ; ; ) ( 0.42 ; 0.2 ; 0.23 ; 0.06 ; ; 0.01 ; ; ; ; 0.42 ; ; ; ) ( 0.3 ; 0.2 ; 0.14 ; 0.06 ; ; 0.01 ; ; ; ; 0.35 ; ; ; ) ( 0.3 ; 0.17 ; 0.05 ; 0.06 ; ; 0.01 ; ; ; ; 0.42 ; ; ; ) ( 0.27 ; 0.17 ; 0.05 ; ; ; 0.01 ; ; ; 0.42 ; ; ; ; ) ( 0.25 ; 0.27 ; 0.05 ; 0.06 ; ; 0.01 ; ; ; ; 0.42 ; ; ; ) ( 0.27 ; 0.23 ; 0.05 ; 0.21 ; ; 0.01 ; ; ; ; 0.42 ; ; ; ) ( 0.42 ; 0.2 ; 0.14 ; ; ; 0.01 ; ; ; 0.35 ; ; ; ; ) ( 0.25 ; 0.21 ; 0.05 ; 0.21 ; ; 0.01 ; ; ; ; 0.35 ; ; ; ) ( 0.23 ; 0.23 ; 0.05 ; 0.21 ; ; 0.01 ; ; ; ; 0.42 ; ; ; ) ( 0.27 ; 0.27 ; 0.05 ; 0.06 ; ; 0.01 ; ; ; ; 0.35 ; ; ; ) ( 0.35 ; 0.21 ; 0.05 ; 0.06 ; ; 0.01 ; ; ; ; 0.42 ; ; ; ) Hình 5-11 Số liệu 20 dòng vector trọng số Cụm 1 2 1 1 1 1 1 1 1 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18 V19 V20 age; job 58 management 44 technician 33 entrepreneur 47 blue-collar 33 unknown 35 management 28 management 42 entrepreneur 58 retired 43 technician 41 admin 29 admin 53 technician 58 technician 57 services 51 retired 45 admin 57 blue-collar 60 retired 33 services marital married single married married single married single divorced married single divorced single married married married married single married married married education tertiary secondary secondary unknown unknown tertiary tertiary tertiary primary secondary secondary secondary secondary unknown secondary primary unknown primary primary secondary default no no no no no no no yes no no no no no no no no no no no no housing yes yes yes yes no yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes loan no no yes no no no yes no no no no no no no no no no no no no contact day unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown month may may may may may may may may may may may may may may may may may may may may unknown poutcome 261 -1 unknown 151 -1 unknown 76 -1 unknown 92 -1 unknown 198 -1 unknown 139 -1 unknown 217 -1 unknown 380 -1 unknown 50 -1 unknown 55 -1 unknown 222 -1 unknown 137 -1 unknown 517 -1 unknown 71 -1 unknown 174 -1 unknown 353 -1 unknown 98 -1 unknown 38 -1 unknown 219 -1 unknown 54 -1 unknown y no no no no no no no no no no no no no no no no no no no no 1 2 1 1 1 1 1 1 1 39 Hình 5-12 Bảng 20 dòng liệu đầu vào 40 Giải thích: Bảng 20 dòng liệu đƣợc nhập vào có vector trọng số tƣơng ứng nằm bảng 20 dòng vector trọng số Dữ liệu đƣợc phân thành cụm tƣơng ứng với vector sau: v3 v20 v35 Vector tâm cụm ( 0.42 ; 0.21 ; 0.05 ; ; ; 0.01 ; ; ; 0.35 ; ; ; ; ) ( 0.35 ; 0.21 ; 0.05 ; 0.06 ; ; 0.01 ; ; ; ; 0.42 ; ; ; ) ( 0.25 ; 0.17 ; 0.23 ; 0.06 ; ; 0.01 ; ; ; ; 0.35 ; ; ; ) Hình 5-13 Vector trọng tâm cụm Ta thấy cụm có đặc trƣng sau: Marital: married, Housing: yes, Loan:no, Poutcome: unknown, Education: secondary 5.2/ Đánh giá kết quả: Qua thực nghiệm trình bày, phản ánh đƣợc đầy đủ tính chất phƣơng pháp gom cụm Fuzzy C-Means Dữ liệu đầu vào đƣợc vào cụm tƣơng đối xác ứng với đặc trƣng cụm Tuy phải trải qua phân tích thủ công để thu đƣợc kết mong muốn 41 CHƢƠNG KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 6.1/ Kết luận: Đây chƣơng trình phân tích liệu thu thập marketing giúp đỡ ngƣời dùng việc phân loại nhóm khách hàng, tìm kiếm khách hàng tiềm từ có kế hoạch cho thị trƣờng mục tiêu, chiến lƣợc kinh doanh lâu dài Kết thực thực nghiệm cho thấy bƣớc đầu xây dựng thành công chƣơng trình Fuzzy C-Means bao gồm chức năng: Ứng dụng Logic mờ để thu thập liệu marketing Có khả làm việc với lƣợng liệu lớn Có khả khám phá cụm chƣa đƣợc gán nhãn Xử lý đƣợc tập liệu chƣa biết giá trị Phân loại liệu, phần thành cụm tƣơng đồng Chƣơng trình tính toán dựa vào liệu đầu vào để đƣa kết mong muốn Fuzzy C-Means phân cụm liệu mềm dẻo xét đối tƣợng thuộc cụm tuỳ theo độ thuộc đối tƣợng vào cụm Tuy nhiên Fuzzy C-Means lại xét tất thuộc tính đối tƣợng có vai trò nhƣ Trong thực tế, liệu thƣờng phức tạp có thuộc tính có ý nghĩa hẳn thuộc tính khác Vì việc đƣa vector trọng số để điều chỉnh ý nghĩa thuộc tính cần thiết Điều làm cho việc gom cụm xác linh hoạt hơn.Khi có vector trọng số, ngƣời dùng tuỳ theo tình mà điều chỉnh để việc phân tích liệu đáp ứng đƣợc yêu cầu thực tế 6.2/ Hƣớng nghiên cứu tiếp theo: Luận văn thử nghiệm thuật toán Fuzzy C-Means với sở liệu ngẫu nhiên, đơn giản nên đánh giá hiệu độ hiệu việc phân loại cụm chƣa đƣợc trực quan Trên sở nghiên cứu đƣợc trình bày luận văn, tiếp tục nghiên cứu thuật toán gom cụm liệu, nhƣ sử dụng kết hợp thuật toán để cải tiến khắc phục nhƣợc điểm thuật toán Fuzzy C-Means Ngoài đƣa vào nguồn liệu thực tế điều chỉnh để chƣơng trình đáp ứng đƣợc nhu cầu xây dựng thêm tính 42 TÀI LIỆU THAM KHẢO: [3] Hesam Izakian, Ajith Abraham (2010) ”Fuzzy C-means and fuzzy swarm for fuzzy clustering problem” Expert Systems with Applications Volume 38, Issue 3, March 2011, Pages 1835–1838 [1] Jiawai Han and Micheline Kember (2011) Data Mining Concept and Techniques (Second Edition) [5] John Wiley and Sons (1999) “Fuzzy Cluster Analysis” ISBN: 978-0-47198864-9 [2] Krishna Kant Singh, M J Nigam, Kirat Pal, Akansha Mehrotra (2014) ” A Fuzzy Kohonen Local Information C-Means Clustering for Remote Sensing Imagery” IETE Technical Review, Volume 31, Issue 1, 2014, pages 75-81 [7] Lý Thành (2008) “Giới thiệu số thuật toán gom cụm mờ ứng dụng thuật toán gom cụm mờ (fuzzy clustering), mô hình xich markov để phân loại, dự báo, giải tình trạng kẹt xe” Đại học Công nghệ Thông tin [4] Lotfi A Zadeh (1965) “Fuzzy sets” Information and Control 8: 338–353 [9] Nguyễn Đình Thuân, Đoàn Huấn (2012) “Sử dụng thuật toán gom cụm mờ khai phá sở liệu ERP doanh nghiệp dược phẩm.” Tập san tin học quản lý, Tập 02, Số 2, 2012, 9-17p [6] Patrick Andre Pantel (2003) “Clustering by Committee” Thesis Doctor of Philosophy, University of Alberta, 15-25p [8] Quan Thanh Tho, Siu Cheung Hui, A.C.M Fong, Tru Hoang Cao (2006) “Automatic Fuzzy Ontology Generation for Semantic Web”.IEEE Transactions on Knowledge & Data Engineering, 2006 Vol 18, No.06 – June [...]... điểm tâm c a c m ci hơn so với c c c m cj sẽ đƣ c gom về c m ci Đầu vào c a thuật toán K -Means: Số c c c m k, và CSDL c n số điểm (đối tƣợng) trong không gian dữ liệu 13 Minh họa thuật toán K -means: Hình 3-3 Lƣu đồ c a thuật toán K -means C c bƣ c của thuật toán K -means: Bƣ c 1: Chọn ngẫu nhiên k mẫu vào k c m Coi tâm c a c m là chính là mẫu c trong c m Bƣ c 2: Tính khoảng c ch giữa c c mẫu c n lại... phân tích mối quan hệ giữa c m và dữ liệu giúp tìm ra dữ liệu mà nhà quản trị mong muốn Điều này c thể giúp c ng ty c chiến lƣ c kinh doanh hiệu quả hơn Phƣơng pháp gom c m Fuzzy C- Means đƣ c chọn do ƣu điểm mềm dẻo để x c định dữ liệu c thể thu c một c m ho c nhiều c m mà phƣơng pháp gom c m truyền thống chƣa 2 đáp ứng đƣ c Do đó, em đã chọn đề tài Ứng dụng gom c m Fuzzy C- Means trong phân tích dữ. .. chƣa biết trƣ c c c thông tin về lớp hay c c thông tin về tập huấn luyện Trong quá trình huấn luyện dữ liệu, phân c m dữ liệu sẽ khởi tạo c c lớp cho phân lớp bằng c ch x c định c c nhãn cho c c nhóm dữ liệu 2.2.2/ Một số khái niệm khi tiếp c n phân c m dữ liệu: 2.2.2.1/ Một số phƣơng pháp phân c m điển hình: C c kỹ thuật phân c m c rất nhiều c ch tiếp c n và dựa trên c c thuật toán ứng dụng, nó đều... phân tích dữ liệu marketing 1.2/ M c tiêu c a đề tài: Đề tài Ứng dụng gom c m Fuzzy C- Means trong phân tích dữ liệu marketing sẽ giúp ngƣời sử dụng phân loại theo đ c tính c a dữ liệu, theo ch c năng c a dữ liệu, thấy tr c quan vùng dữ liệu đƣ c thu thập Vi c phân loại dữ liệu sẽ đảm bảo đầy đủ thông tin, dễ thao t c với dữ liệu cho c c dự án nghiên c u đƣ c đặt ra 1.3/ C u tr c luận văn: Chƣơng 1:... thu c tính dữ liệu đã đƣ c gán trọng số tƣơng ứng wi (1