1. Trang chủ
  2. » Giáo Dục - Đào Tạo

KHAI PHÁ DỮ LIỆU BẰNG THUẬT TOÁN k MEANS VỚI TÌNH HUỐNG PHÂN LOẠI NGƯỜI DÙNG WEBSITE ANIME47 COM

44 58 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • MỤC LỤC

  • DANH MỤC BẢNG

  • DANH MỤC HÌNH VẼ

  • MỞ ĐẦU

  • Chương 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

    • 1.1 MỘT SỐ KHÁI NIỆM

      • 1.1.1 Khai phá dữ liệu

      • 1.1.2 Quy trình tiến hành khai phá dữ liệu

      • 1.1.3 Các phương pháp khai phá dữ liệu

    • 1.2 CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU PHỔ BIẾN

      • 1.2.1 Một số khái niệm

        • 1.2.1.1 Phân cụm dữ liệu

        • 1.2.1.2 Quy trình phân cụm dữ liệu

        • 1.2.1.3 Cách thức đo lường dữ liệu

        • 1.2.1.4 Phân loại phân cụm dữ liệu

      • 1.2.2 Các thuật toán phân cụm dữ liệu phổ biến

        • 1.2.2.1 Thuật toán BIRCH

        • 1.2.2.2 Thuật toán K means

  • Chương 2. THUẬT TOÁN PHÂN CỤM DỮ LIỆU K-MEANS CLUSTERING

    • 2.1 KHÁI QUÁT VỀ THUẬT TOÁN K-MEANS

      • 2.1.1 Giới thiệu

      • 2.1.2 Thuật toán

      • 2.1.3 Ví dụ cụ thể

    • 2.2 MỐI QUAN HỆ GIỮA K-MEANS VÀ THÀNH PHẦN CHÍNH PCA

      • 2.2.1 Phân tích thành phần chính PCA

      • 2.2.2 Mối quan hệ giữa K-means và thành phần chính PCA

  • Chương 3. ỨNG DỤNG THUẬT TOÁN K-MEANS TRONG VIỆC PHÂN NHÓM NGƯỜI DÙNG

    • 3.1 BÀI TOÁN

    • 3.2 ỨNG DỤNG PHÂN NHÓM NGƯỜI DÙNG WEBSITE PHIM ANIME47.COM

      • 3.2.1 Thu thập dữ liệu

      • 3.2.2 Tiền xử lí dữ liệu

        • 3.2.2.1 Mô tả dữ liệu

        • 3.2.2.2 Xử lí dữ liệu

        • 3.2.2.3 Tạo bảng crosstable

      • 3.2.3 Phân tích kết quả

        • 3.2.3.1 Phân tích thành phần chính PCA

        • 3.2.3.2 K means clustering

      • 3.2.4 Khuyến nghị

  • KẾT LUẬN

  • TÀI LIỆU THAM KHẢO

Nội dung

Chun đề thực tập ngành Tốn tài TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN KHOA TOÁN KINH TẾ -o0o - CHUYÊN ĐỀ THỰC TẬP Chun ngành Tốn Tài Đề tài: KHAI PHÁ DỮ LIỆU BẰNG THUẬT TỐN K MEANS VỚI TÌNH HUỐNG PHÂN LOẠI NGƯỜI DÙNG WEBSITE ANIME47.COM Sinh viên thực : Phạm Hà Anh Mã sinh viên : 11160366 Lớp : Tốn tài 58 Giảng viên hướng dẫn : ThS Phạm Thị Nga Hà Nội, tháng 12 năm 2019 LỜI CẢM ƠN 11160366 – Phạm Hà Anh Chuyên đề thực tập ngành Tốn tài Lời cho phép em xin gửi lời cảm ơn chân thành đến Trường Đại học Kinh Tế Quốc Dân, Khoa Tốn Kinh tế ln tạo điều kiện mơi trường tốt để em học tập rèn luyện tham gia hoạt động suốt năm học vừa qua Em xin chân thành cảm ơn hướng dẫn, dạy tận tình Th S Phạm Thị Nga tạo điều kiện giúp em hồn thành chun đề tốt nghiệp Trong q trình nghiên cứu thân cịn có nhiều thiếu hụt mặt kiến thức kinh nghiệm thực tế áp lực mặt thời gian nên em khơng thể tránh khỏi hạn chế, thiếu sót Vì vậy, em mong nhận góp ý từ q thầy để em hồn thiện MỤC LỤC DANH MỤC BẢNG 11160366 – Phạm Hà Anh Chuyên đề thực tập ngành Tốn tài DANH MỤC HÌNH VẼ MỞ ĐẦU Chương 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU .4 MỘT SỐ KHÁI NIỆM .4 1.1.1 Khai phá liệu 1.1.2 Quy trình tiến hành khai phá liệu .4 1.1.3 Các phương pháp khai phá liệu 1.2 CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU PHỔ BIẾN 1.2.1 Một số khái niệm 1.2.2 Các thuật toán phân cụm liệu phổ biến 10 Chương THUẬT TOÁN PHÂN CỤM DỮ LIỆU K-MEANS CLUSTERING .15 2.1 KHÁI QUÁT VỀ THUẬT TOÁN K-MEANS 15 2.1.1 Giới thiệu 15 2.1.2 Thuật toán 15 2.1.3 Ví dụ cụ thể .16 2.2 MỐI QUAN HỆ GIỮA K-MEANS VÀ THÀNH PHẦN CHÍNH PCA ………………………………………………………………………….18 2.2.1 Phân tích thành phần PCA 18 2.2.2 Mối quan hệ K-means thành phần PCA 18 Chương ỨNG DỤNG THUẬT TỐN K-MEANS TRONG VIỆC PHÂN NHĨM NGƯỜI DÙNG 21 3.1 BÀI TOÁN .21 3.2 ỨNG DỤNG PHÂN NHÓM NGƯỜI DÙNG WEBSITE PHIM ANIME47.COM .22 3.2.1 Thu thập liệu .22 3.2.2 Tiền xử lí liệu .23 3.2.3 Phân tích kết 27 3.2.4 Khuyến nghị 39 11160366 – Phạm Hà Anh Chun đề thực tập ngành Tốn tài KẾT LUẬN 41 TÀI LIỆU THAM KHẢO 42 DANH MỤC BẢNG Bảng 1 Quy trình khai phá liệu .4 Bảng Quy trình phân cụm liệu .7 Bảng Giải thích giá trị tham số 11 11160366 – Phạm Hà Anh Chuyên đề thực tập ngành Toán tài Bảng Ưu điểm nhược điểm thuật toán BIRCH .12 Bảng Thông tin biến số liệu 22 Bảng Thông tin biến số liệu 22 Bảng 3 Top thể loại phim mà người dùng nhóm yêu thích 34 Bảng Top thể loại phim mà người dùng nhóm yêu thích 36 Bảng Top thể loại phim mà người dùng nhóm yêu thích 37 Bảng Top thể loại phim mà người dùng nhóm u thích 39 DANH MỤC HÌNH VẼ Hình 1 Phân cụm phân cấp theo phương pháp giảm dần .11 Hình Thuật tốn K means 16 Hình 2 Phân tích thành phần PCA .19 Hình Phân tích thành phần PCA .19 11160366 – Phạm Hà Anh Chuyên đề thực tập ngành Tốn tài Hình Minh họa số liệu .22 Hình Minh họa số liệu .23 Hình 3 Đồ thị Elbow Method .29 Hình Đồ thị Silhoutee Score 30 Hình Đồ thị cụm liệu không gian chiều 32 Hình Thể loại phim mà người dùng nhóm u thích 34 Hình Thể loại phim mà người dùng nhóm u thích 36 Hình Thể loại phim mà người dùng nhóm u thích 37 Hình Thể loại phim mà người dùng nhóm u thích 39 11160366 – Phạm Hà Anh Chuyên đề thực tập ngành Toán tài MỞ ĐẦU Lí lựa chọn đề tài Thời đại 4.0 mở nhiều hội thách thức phát triển ảnh hưởng thông tin số đến hoạt động sống, đồng nghĩa với việc lượng liệu thu thập lưu trữ ngày lớn Sự bùng nổ thông tin dẫn đến yêu cầu thực tế cần thiết cần mang đến cơng cụ giải thuật để khám phá tri thức cách tối ưu hiệu Và với yêu cầu đó, kĩ thuật khai phá liệu (Data mining) xuất ngày trở nên phổ biến Trong đó, phân cụm liệu kĩ thuật khai thác thông tin phổ biến triển khai đa dạng lĩnh vực ngành nghề từ kinh tế, giáo dục bảo hiểm, kế hoạch đô thị, v.v… Rõ ràng, liệu sống cần phân loại để người tạo định hợp lí xác Cụ thể, lĩnh vực phim ảnh, ngành có lượng liệu khổng lồ, ta cần xử lý, phân loại để có quản lý ứng dụng kế hoạch marketing phù hợp Đó lý em lựa chọn đề tài “Khai phá liệu thuật toán K means với tình phân loại người dùng website anime47.com.” Tổng quan nghiên cứu Bức tranh nghiên cứu thuật tốn phân cụm K-means Clustering nhìn qua hai góc độ nước ngồi nước Các tài liệu nghiên cứu khoa học nước có tìm hiểu phát triển đa dạng thuật toán phân cụm K means, từ nghiên cứu học thuật lý thuyết đến nghiên cứu ứng dụng thuật tốn vào đời sống Về khía cạnh lý thuyết, nghiên cứu “Research on K-Value Selection Method of K-Means Clustering Algorithm” Chunhui Yuan and Haitao Yang Multidisciplinary Scientific Journal khái quát hóa tranh tổng quan thuật toán K means cách xác định số cụm k Về ứng dụng thuật toán, kể đến số nghiên cứu như: Bài viết “Application of K-Means Clustering algorithm for prediction of Students’ Academic Performance” (International Journal of Computer Science and Information Security, Vol 7, No 1, 2010) ứng dụng kỹ thuật phân cụm K means dự đoán kết học tập sinh viên đưa giải pháp, khuyến nghị; H.W Shina S.Y Sohnb phân loại thị trường chứng khoán qua nghiên cứu “Segmentation of stock trading customers according 11160366 – Phạm Hà Anh Chuyên đề thực tập ngành Tốn tài to potential value”; hay tốn phân nhóm khách hàng “Customer Segmentation using K-means Clustering”, University of Petroleum & Energy Studies Nhìn chung, hầu hết nghiên cứu, thuật toán K means cho thấy hiệu ưu việt phân nhóm đối tượng, áp dụng nhiều lĩnh vực khác Ở Việt Nam, tính đến thời điểm tại, thuật tốn K- means Clustering tìm hiểu nghiên cứu nhiều, nhiên phổ biến ứng dụng mang đậm tính chuyên ngành công nghệ thông tin phân vùng ảnh hay phân mức web Cùng với đó, việc áp dụng thuật tốn K-means phân loại khách hàng trở nên ngày phổ biến tính đơn giản, dễ sử dụng tốc độ thực nhanh Ví dụ tiêu biểu kể đến nghiên cứu “Phân loại hành vi khách hàng sử dụng dịch vụ di động dựa thuật toán K-means” tác giả Lê Minh Hải, thuộc Học viện Cơng nghệ bưu viễn thơng Rõ ràng, việc tìm hiểu thuật tốn phân cụm K means với hướng nghiên cứu phân nhóm người dùng hồn toàn cần thiết Mục tiêu nghiên cứu Mục tiêu đề tài phân nhóm người dùng website phim Anime47.com Từ nhận xét, kết luận đặc điểm nhóm khách hàng, đưa chiến lược marketing quảng cáo phù hợp hiệu Đối tượng nghiên cứu Đối tượng nghiên cứu chuyên đề thuật toán K means ứng dụng phân nhóm người dùng website anime47.com Phương pháp nghiên cứu số liệu Chuyên đề sử dụng phương pháp định lượng nghiên cứu Cụ thể tác giả sử dụng phần mềm Python nhằm phân tích, khai phá liệu phân nhóm người dùng website, từ đưa đề xuất, khuyến nghị phù hợp với nhóm khách hàng Bộ số liệu sử dụng bao gồm thông tin đánh giá điểm phim 20 000 người dùng website anime47.com, không bao gồm thông tin cá nhân khách hàng giới tính, độ tuổi, nghề nghiệp, … Những đóng góp chuyên đề 11160366 – Phạm Hà Anh Chuyên đề thực tập ngành Tốn tài Bài chun đề đạt số điểm đáng ghi nhận như: (1) Ứng dụng thuật tốn K means vào tình hữu dụng thực tế phân nhóm khách hàng nhằm đưa đề xuất, khuyến nghị phù hợp với nhóm đối tượng; (2) Tác giả ứng dụng phần mềm Python nghiên cứu Kết cấu chuyên đề Bên cạnh phần mở đầu kết luận, chuyên đề kết cấu thành ba chương chính, cụ thể sau: Chương Tổng quan khai phá liệu Chương Thuật toán phân cụm liệu K means Clustering Chương Ứng dụng thuật tốn K means việc phân nhóm người dùng 11160366 – Phạm Hà Anh Chuyên đề thực tập ngành Tốn tài Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 MỘT SỐ KHÁI NIỆM 1.1.1 Khai phá liệu Vào năm 1989, lần Fayyad, Piatestsky-Shapiro Smyth định nghĩa khái niệm phát tri thức sở liệu (Knowledge Discovery in Database) quy trình tìm kiếm thơng tin hữu ích từ tập liệu lớn Hay nói cách khác, khai phá liệu bước quan trọng trình khám phá tri thức Quy trình khai phá liệu sử dụng thuật tốn có sẵn để tìm mẫu (hay mơ hình) từ tập tữ liệu Mục tiêu việc khai phá liệu tìm kiếm thơng tin, tri thức tiềm ẩn liệu để từ đó, mang lại tri thức thiết yếu cho đa dạng lĩnh vực sống Chính xác hơn, việc phân loại, xếp tập liệu để xác định mẫu thiết lập mối liên hệ nhằm định nghiệp vụ nhờ phân tích liệu gọi “khai phá liệu” 1.1.2 Quy trình tiến hành khai phá liệu Với lượng thông tin lớn, sử dụng thơng tin rõ ràng có ảnh hưởng vô quan trọng Từ liệu sẵn có, ta cần phải xác định tri thức tiềm ẩn có giá trị, tìm xu hướng yếu tố tác động đến liệu Đây việc khai phá tri thức liệu Cụ thể, quy trình khai phá liệu thực qua bước sau: Bảng 1 Quy trình khai phá liệu Nội dung Mục tiêu Bước Thu thập liệu Đây coi bước quan trọng rõ ràng, để khám phá tri thức cần phải có liệu để khám phá Thu thập liệu bao gồm trình lựa chọn lĩnh vực khám phá, xây dựng thuộc tính biểu diễn phương thức cập nhật thơng tin Bước Tiền xử lí liệu Là việc loại bỏ, giảm bớt độ nhiễu phần tử ngoại lai liệu, Bước Chuyển đổi 11160366 – Phạm Hà Anh Là việc chuẩn hóa số liệu để chuyển sang Chuyên đề thực tập ngành Tốn tài 3.2.2.3 Tạo bảng crosstable Ta tiến hành tạo bảng crosstable với giá trị Trong đó, giá trị coi phim mà người dùng yêu thích, phim mà người dùng khơng ưa thích Bảng crosstable gồm 20000 dòng tương đương với 20000 người dùng, 7852 cột tương đương với 7852 phim 3.2.3 Phân tích kết 3.2.3.1 Phân tích thành phần PCA Với 7852 phim tương đương với 7852 thuộc tính cần phân nhóm, ta tiến hành giảm kích thước liệu dựa phương pháp phân tích thành phần PCA, chuyển đổi liệu không gian chiều (n=3) 11160366 – Phạm Hà Anh 24 Chuyên đề thực tập ngành Tốn tài 3.2.3.2 K means clustering o Xác định số k tối ưu: Sau có số liệu phù hơp, ta tiến hành xác định số k cần để phân nhóm Có nhiều phương pháp để xác định số cụm k Với nghiên cứu chuyên đề, em xin lựa chọn hai phương pháp Elbow method Silhouette Score Ý tưởng phương pháp phân cụm phân hoạch xác định số cụm cho tổng biến thiên bình phương khoảng cách cụm nhỏ nhất, tham số gọi WSS (Within-cluster Sum of Square) Phương pháp Elbow 11160366 – Phạm Hà Anh 25 Chun đề thực tập ngành Tốn tài method chọn số sụm k cho thêm vào cụm khác khơng làm cho WSS thay đổi nhiều Hình 3 Đồ thị Elbow Method Có thể thấy vượt qua ngưỡng k = WSS giảm chậm, nên ta chọn số cụm tối ưu = Một phương pháp khác xác định số cụm k Silhoutee Score dùng để đo chất lượng cụm Nó xác định mức độ phù hợp đối tượng cụm Vị trí có average silhoutee lớn số cụm k cần tìm Với Silhoutte Score, ta xác định k = hợp lý 11160366 – Phạm Hà Anh 26 Chun đề thực tập ngành Tốn tài Hình Đồ thị Silhoutee Score o Thuật toán K-means clustering Với số cụm chọn = 4, ta tiến hành thực thuật toán K-means Clustering: 11160366 – Phạm Hà Anh 27 Chuyên đề thực tập ngành Toán tài Quan sát ngẫu nhiên 10 người dùng đầu tiên, Và 10 người dùng cuối Ta tiến hành quan sát liệu chia thành cụm: 11160366 – Phạm Hà Anh 28 Chuyên đề thực tập ngành Tốn tài Hình Đồ thị cụm liệu không gian chiều o Đặc điểm cụm: Sau hoàn thành phân cụm liệu, ta tiến hành xem xét dặc điểm cụm để rút đánh giá cần thiết Ta tiến hành tìm thể loại phim u thích nhóm người dùng để đưa đánh giá cụ thể cần thiết Top 15 phim yêu thích giải thích thể loại phim u thích nhóm  Đối với nhóm 1: Mười lăm phim mà người dùng nhóm ưa thích là: 11160366 – Phạm Hà Anh 29 Chun đề thực tập ngành Tốn tài 11160366 – Phạm Hà Anh 30 Chuyên đề thực tập ngành Toán tài Cuối cùng, thể loại phim ưa thích nhóm là: Hình Thể loại phim mà người dùng nhóm u thích Cụ thể hơn, top thể loại phim ưa thích người dùng nhóm là: Bảng 3 Top thể loại phim mà người dùng nhóm u thích Action Drama Fantasy 11160366 – Phạm Hà Anh 31 Chuyên đề thực tập ngành Tốn tài Supernatural Romance  Đối với nhóm 2: Tiến hành tương tự, Top 15 phim mà người dùng nhóm u thích là: Thể loại phim u thích người dùng thuộc nhóm là: 11160366 – Phạm Hà Anh 32 Chuyên đề thực tập ngành Tốn tài Hình Thể loại phim mà người dùng nhóm u thích Cụ thể hơn, top thể loại phim mà nhóm ưa thích là: Bảng Top thể loại phim mà người dùng nhóm u thích Drama Romance School Action Comedy  Đối với nhóm 3: Top 15 phim mà người dùng nhóm yêu thích là: 11160366 – Phạm Hà Anh 33 Chun đề thực tập ngành Tốn tài Thể loại phim mà người dùng nhóm u thích là: Hình Thể loại phim mà người dùng nhóm yêu thích Cụ thể hơn, thể loại phim mà người dùng nhóm u thích là: Bảng Top thể loại phim mà người dùng nhóm yêu thích Action Drama Adventure Sci-Fi Military  Đối với nhóm Top 15 phim mà người dùng thuộc nhóm u thích 11160366 – Phạm Hà Anh 34 Chuyên đề thực tập ngành Toán tài Có kết thể loại phim mà người dùng nhóm u thích là: Hình Thể loại phim mà người dùng nhóm u thích Cụ thể hơn, top thể loại phim mà người dùng nhóm ưa thích là: Bảng Top thể loại phim mà người dùng nhóm yêu thích Action Supernatural Drama Fantasy 11160366 – Phạm Hà Anh 35 Chun đề thực tập ngành Tốn tài Super power 3.2.4 Khuyến nghị Sau phân nhóm người dùng, ta đưa chiến lược quảng cáo marketing với phim thuộc thể loại mà nhóm người dùng ưa thích để thu kết tốt hiệu Một số kết khuyến nghị riêng nhóm người dùng: o Nhóm nhóm bao gồm nhiều thành viên nhất: 13947 người dùng, với điểm trung bình phim 7.8667, nên ta định hướng tập trung phát triển vào nhóm khách hàng Cụ thể, ta đưa gợi ý phim thuộc top thể loại phim mà người dùng nhóm ưa thích, phim thuộc thể loại “Action”, “Drama”, “Fantasy”, “Supernatural” hay “Romance”, có khả thu hút người dùng nhóm tiếp tục ủng hộ website phim o Nhóm nhóm bao gồm thành viên nhất: 679 người dùng, với điểm trung bình phim cao 8.0, nên với nhóm người này, ta quan tâm Đối với người dùng nhóm 2, ta gợi ý phim thuộc thể loại “Drama” , “Romance” , “School” , “Action” hay “Comedy” o Nhóm gồm 2051 thành viên, với điểm trung bình phim 8.0 Đối với người dùng nhóm 3, ta gợi ý phim thuộc thể loại “Action” , “Drama” , “Adventure” , “Sci-Fi” hay “Military” o Nhóm gồm 3323 thành viên, với điểm trung bình phim 8.067 Đối với người dùng nhóm 4, ta gợi ý phim thuộc thể loại “Action” , “Supernatural” , “Drama” , “Fantasy” hay “Super power” o Cả nhóm khách hàng có u thích với thể loại “Action” “Drama” (khác mức độ yêu thích), vậy, ta tập trung phát triển với phim thuộc thể loại 11160366 – Phạm Hà Anh 36 Chuyên đề thực tập ngành Tốn tài KẾT LUẬN Bài chun đề cố gắng nghiên cứu, tìm hiểu số kĩ thuật khai phá liệu thuật toán phân cụm liệu phổ biến Dựa phương pháp trình bày, viết tiến hành sử dụng thuật toán K means với số liệu website phim từ đưa đánh giá nhóm người dùng Chuyên đề tiếp tục phát triển theo số hướng sau: o Về lý thuyết: tiếp tục nghiên cứu phương pháp khai phá liệu khác, thuật toán khác phân cụm liệu như: thuật toán CURE, thuật toán PAM… từ so sánh giống khác thuật toán o Về thực tế số liệu: phát triển thành tốn phân nhóm người dùng xem phim không dựa vào điểm đánh giá người dùng mà cịn dựa vào thông tin cá nhân người dùng giới tính, tuổi, nghề nghiệp, … để đưa đánh giá kĩ nhóm người dùng Dù tham khảo nhiều tài liệu nước ngồi nước, thân cịn có nhiều thiếu sót nên khơng thể khơng tránh khỏi hạn chế, 11160366 – Phạm Hà Anh 37 Chuyên đề thực tập ngành Tốn tài sai sót Vì vậy, em mong nhận dược đóng góp thầy để hồn thiện chun đề TÀI LIỆU THAM KHẢO PGS.TS Ngô Văn Thứ, TS Nguyễn Mạnh Thế (2016) Giáo trình Thống kê thực hành, NXB ĐHKTQD Tạp chí Khoa học & cơng nghệ, số – 2011, Tổng quan phát tri thức khai phá liệu https://stats.stackexchange.com/ https://machinelearningcoban.com/ 11160366 – Phạm Hà Anh 38 ... tâm cụm để tính khoảng cách đối tượng điểm trung tâm, với số cụm k cho sẵn Các phép tính khoảng cách thường dùng thuật toán phân cụm K- Means khoảng cách Minkowski biến thể Minkowski Euclide Manhattan... để khám phá tri thức cách tối ưu hiệu Và với yêu cầu đó, k? ? thuật khai phá liệu (Data mining) xuất ngày trở nên phổ biến Trong đó, phân cụm liệu k? ? thuật khai thác thông tin phổ biến triển khai. .. phân loại để có quản lý ứng dụng k? ?? hoạch marketing phù hợp Đó lý em lựa chọn đề tài ? ?Khai phá liệu thuật tốn K means với tình phân loại người dùng website anime47. com. ” Tổng quan nghiên cứu Bức

Ngày đăng: 10/12/2021, 12:41

HÌNH ẢNH LIÊN QUAN

Bảng 1.1 Quy trình khai phá dữ liệu Nội dungMục tiêu - KHAI PHÁ DỮ LIỆU BẰNG THUẬT TOÁN k MEANS VỚI TÌNH HUỐNG PHÂN LOẠI NGƯỜI DÙNG WEBSITE ANIME47 COM
Bảng 1.1 Quy trình khai phá dữ liệu Nội dungMục tiêu (Trang 10)
liệu dạng mà thích hợp với mô hình khám phá dữ liệu ở các bước sau. Các kĩ thuật chuyển đổi dữ liệu thường được sử dụng có thể kể đến như giảm kích thước của bộ số liệu, đưa dữ liệu sang một hệ trục tọa độ mới, chuyển dạng dữ liệu, … Bước 4Khai phá dữ liệ - KHAI PHÁ DỮ LIỆU BẰNG THUẬT TOÁN k MEANS VỚI TÌNH HUỐNG PHÂN LOẠI NGƯỜI DÙNG WEBSITE ANIME47 COM
li ệu dạng mà thích hợp với mô hình khám phá dữ liệu ở các bước sau. Các kĩ thuật chuyển đổi dữ liệu thường được sử dụng có thể kể đến như giảm kích thước của bộ số liệu, đưa dữ liệu sang một hệ trục tọa độ mới, chuyển dạng dữ liệu, … Bước 4Khai phá dữ liệ (Trang 11)
Bảng 1.2 Quy trình phân cụm dữ liệu Nội dungMục tiêu - KHAI PHÁ DỮ LIỆU BẰNG THUẬT TOÁN k MEANS VỚI TÌNH HUỐNG PHÂN LOẠI NGƯỜI DÙNG WEBSITE ANIME47 COM
Bảng 1.2 Quy trình phân cụm dữ liệu Nội dungMục tiêu (Trang 13)
Hình 1.1 Phân cụm phân cấp theo phương pháp giảm dần - KHAI PHÁ DỮ LIỆU BẰNG THUẬT TOÁN k MEANS VỚI TÌNH HUỐNG PHÂN LOẠI NGƯỜI DÙNG WEBSITE ANIME47 COM
Hình 1.1 Phân cụm phân cấp theo phương pháp giảm dần (Trang 16)
Bảng 1.3 Giải thích các giá trị tham số - KHAI PHÁ DỮ LIỆU BẰNG THUẬT TOÁN k MEANS VỚI TÌNH HUỐNG PHÂN LOẠI NGƯỜI DÙNG WEBSITE ANIME47 COM
Bảng 1.3 Giải thích các giá trị tham số (Trang 17)
Hình 2.1 Thuật toá nK means - KHAI PHÁ DỮ LIỆU BẰNG THUẬT TOÁN k MEANS VỚI TÌNH HUỐNG PHÂN LOẠI NGƯỜI DÙNG WEBSITE ANIME47 COM
Hình 2.1 Thuật toá nK means (Trang 21)
Hình 2.2 Phân tích thành phần chính PCA - KHAI PHÁ DỮ LIỆU BẰNG THUẬT TOÁN k MEANS VỚI TÌNH HUỐNG PHÂN LOẠI NGƯỜI DÙNG WEBSITE ANIME47 COM
Hình 2.2 Phân tích thành phần chính PCA (Trang 23)
Hình 2.3 Phân tích thành phần chính PCA - KHAI PHÁ DỮ LIỆU BẰNG THUẬT TOÁN k MEANS VỚI TÌNH HUỐNG PHÂN LOẠI NGƯỜI DÙNG WEBSITE ANIME47 COM
Hình 2.3 Phân tích thành phần chính PCA (Trang 24)
Hình 3.2 Minh họa bộ số liệu 2 - KHAI PHÁ DỮ LIỆU BẰNG THUẬT TOÁN k MEANS VỚI TÌNH HUỐNG PHÂN LOẠI NGƯỜI DÙNG WEBSITE ANIME47 COM
Hình 3.2 Minh họa bộ số liệu 2 (Trang 27)
Bảng 3.2 Thông tin về các biến trong bộ số liệu 2 - KHAI PHÁ DỮ LIỆU BẰNG THUẬT TOÁN k MEANS VỚI TÌNH HUỐNG PHÂN LOẠI NGƯỜI DÙNG WEBSITE ANIME47 COM
Bảng 3.2 Thông tin về các biến trong bộ số liệu 2 (Trang 27)
3.2.2.3 Tạo bảng crosstable - KHAI PHÁ DỮ LIỆU BẰNG THUẬT TOÁN k MEANS VỚI TÌNH HUỐNG PHÂN LOẠI NGƯỜI DÙNG WEBSITE ANIME47 COM
3.2.2.3 Tạo bảng crosstable (Trang 30)
Hình 3 .3 Đồ thị Elbow Method - KHAI PHÁ DỮ LIỆU BẰNG THUẬT TOÁN k MEANS VỚI TÌNH HUỐNG PHÂN LOẠI NGƯỜI DÙNG WEBSITE ANIME47 COM
Hình 3 3 Đồ thị Elbow Method (Trang 32)
Hình 3 .4 Đồ thị Silhoutee Score - KHAI PHÁ DỮ LIỆU BẰNG THUẬT TOÁN k MEANS VỚI TÌNH HUỐNG PHÂN LOẠI NGƯỜI DÙNG WEBSITE ANIME47 COM
Hình 3 4 Đồ thị Silhoutee Score (Trang 33)
Hình 3 .5 Đồ thị các cụm dữ liệu dưới không gian 3 chiều - KHAI PHÁ DỮ LIỆU BẰNG THUẬT TOÁN k MEANS VỚI TÌNH HUỐNG PHÂN LOẠI NGƯỜI DÙNG WEBSITE ANIME47 COM
Hình 3 5 Đồ thị các cụm dữ liệu dưới không gian 3 chiều (Trang 35)
Hình 3 .6 Thể loại phim mà người dùng nhóm 1 yêu thích - KHAI PHÁ DỮ LIỆU BẰNG THUẬT TOÁN k MEANS VỚI TÌNH HUỐNG PHÂN LOẠI NGƯỜI DÙNG WEBSITE ANIME47 COM
Hình 3 6 Thể loại phim mà người dùng nhóm 1 yêu thích (Trang 37)
Bảng 3 .3 Top 5 thể loại phim mà người dùng nhóm 1 yêu thích - KHAI PHÁ DỮ LIỆU BẰNG THUẬT TOÁN k MEANS VỚI TÌNH HUỐNG PHÂN LOẠI NGƯỜI DÙNG WEBSITE ANIME47 COM
Bảng 3 3 Top 5 thể loại phim mà người dùng nhóm 1 yêu thích (Trang 37)
Hình 3 .7 Thể loại phim mà người dùng nhóm 2 yêu thích - KHAI PHÁ DỮ LIỆU BẰNG THUẬT TOÁN k MEANS VỚI TÌNH HUỐNG PHÂN LOẠI NGƯỜI DÙNG WEBSITE ANIME47 COM
Hình 3 7 Thể loại phim mà người dùng nhóm 2 yêu thích (Trang 39)
Hình 3 .8 Thể loại phim mà người dùng nhóm 3 yêu thích - KHAI PHÁ DỮ LIỆU BẰNG THUẬT TOÁN k MEANS VỚI TÌNH HUỐNG PHÂN LOẠI NGƯỜI DÙNG WEBSITE ANIME47 COM
Hình 3 8 Thể loại phim mà người dùng nhóm 3 yêu thích (Trang 40)
Bảng 3 .6 Top 5 thể loại phim mà người dùng nhóm 4 yêu thích - KHAI PHÁ DỮ LIỆU BẰNG THUẬT TOÁN k MEANS VỚI TÌNH HUỐNG PHÂN LOẠI NGƯỜI DÙNG WEBSITE ANIME47 COM
Bảng 3 6 Top 5 thể loại phim mà người dùng nhóm 4 yêu thích (Trang 41)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w