Đề tài phân tích dữ liệu về các dự án kickstarter để đưa ra hướng đi tốt nhất cho các nhà đầu tư bằng phần mềm orange

37 3 0
Đề tài phân tích dữ liệu về các dự án kickstarter để đưa ra hướng đi tốt nhất cho các nhà đầu tư bằng phần mềm orange

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC UEH TIỂU LUẬN Môn học Khoa học Dữ liệu Đề tài Phân tích liệu dự án Kickstarter để đưa hướng tốt cho nhà đầu tư phần mềm Orange Giảng viên Đặng Ngọc Hồng Thành Mã lớp học phần Nhóm 23D1INF50905922 04 Thành viên Trần Thị Thùy Dương Tạ Thị Khánh Hịa Huỳnh Hồng Trâm Nguyễn Tích Duy Tuyến Hồ Thị Yến Vy TP Hồ Chí Minh, ngày 27 tháng 04 năm 2023 MỤC LỤC Contents DANH MỤC HÌNH DANH MỤC BẢNG LỜI CẢM ƠN CÁC BÀI TOÁN LIÊN QUAN Bài toán 1: Bài toán 2: Bài toán 3: CHƯƠNG 1: TỔNG QUAN 1.1 Lý chọn đề tài 1.1.1 Kickstarter gì? 1.1.2 Lý cụ thể 1.2 Mục tiêu nghiên cứu 1.3 Đối tượng phạm vi nghiên cứu 1.3.1 Đối tượng nghiên cứu 1.3.2 Phạm vi nghiên cứu 1.4 Mô tả liệu cấu trúc liệu CHƯƠNG 2: QUY TRÌNH THỰC HIỆN & KẾT QUẢ 2.1 Các phương pháp dự đoán 2.1.1 Phân lớp liệu 2.1.2 Phân cụm liệu 11 2.2 Tìm hiểu liệu 13 2.2.1 Phân tích cách sử dụng tập liệu 13 2.2.2 Tiền xử lý liệu 14 2.3 Thực nghiệm 15 2.3.1 Bài toán 1: Phát đặc điểm đặc thù liên quan đến thành công thất bại dự án dựa vào lược đồ công cụ thống kê 15 2.3.2 Bài toán 2: Dự đốn rủi ro thành cơng dự án khởi nghiệp (Bài toán phân lớp) 21 2.3.3 Bài toán 3: Phân loại nhóm dự án theo khoảng thời gian bắt đầu dự án (Bài toán phân cụm) 28 CHƯƠNG KẾT LUẬN 36 DANH MỤC HÌNH Hình 1: Quá trình thu gọn liệu 14 Hình : Số lượng dự án lĩnh vực 16 Hình : Số lượng dự án thành công thất bại lĩnh vực 16 Hình 4: Tỷ lệ dự án thành công qua năm 17 Hình 5: Tỷ lệ dự án thành công dựa mối quan hệ Goals & Backers 18 Hình 6: Số lượng dự án khởi nghiệp quốc gia 19 Hình 7: Tỷ lệ dự án thành công quốc gia 19 Hình 8: Tỷ lệ dự án thành cơng theo số vốn cần thiết 20 Hình :Giới thiệu phân lớp liệu 21 Hình 10 : Quá trình phân lớp liệu 22 Hình : Chia tách liệu 22 Hình 11: Mơ hình phân lớp 23 Hình 11: Kết Test and Score 23 Hình 12: Kết Tree 24 Hình 13: Kết SVM 24 Hình 14 : Kết Logistic Regression 25 Hình 15: Kết dự báo Prediction 26 Hình 16 : Kết dự báo từ Prediction sang Data Table (2) 26 Hình 17: Kết dự báo Excel 27 Hình 18: Mơ hình q trình phân cụm liệu 28 Hình 19: Quá trình lọc liệu 29 Hình 20: Mơ hình q trình xử lý tốn phân cụm 29 Hình 21: Kết K-means biểu đồ Silhouette Plot 30 Hình 22: Hai số Silhouette Scores cao cụm 30 Hình 23: Biểu đồ Scatter Plot tốn phân cụm 31 Hình 24: Biểu đồ thể dự án thành công thất bại cụm 31 Hình 25: Biểu đồ thể số dự án ngành cụm 32 Hình 26: Biểu đồ thể số dự án nước cụm 33 Hình 27: Phân bố cụm theo số nhà đầu tư 33 Hình 28: Phân bố cụm theo số vốn đầu tư 34 Hình 29: Phân bố cụm theo số vốn mục tiêu 34 DANH MỤC BẢNG Bảng 1: Mô tả liệu Kickstarter Projects Bảng 2: Kết từ mơ hình Confusion Matrix 25 Bảng 3: Kết K-means phân cụm 30 LỜI CẢM ƠN Nhóm em xin gửi lời cảm ơn chân thành sâu sắc đến thầy Đặng Ngọc Hồng Thành - giảng viên mơn Khoa học liệu trường Đại học Kinh Tế TP HCM Trong q trình tìm hiểu học tập, nhóm em nhận giảng dạy hướng dẫn tận tình, tâm huyết thầy Thầy giúp nhóm em tích lũy thêm nhiều kiến thức hay bổ ích Trong trình thực tiểu luận, chưa có nhiều kinh nghiệm làm đề tài hạn chế mặt kiến thức chuyên môn nên báo cáo khơng thể tránh khỏi thiếu sót Nhóm em mong nhận ý kiến đóng góp thầy để dự án nhóm em hồn thiện Cuối cùng, Nhóm kính chúc thầy thật nhiều sức khỏe, hạnh phúc gặt hái nhiều thành công đường giảng dạy thầy Nhóm em xin chân thành cảm ơn! CÁC BÀI TOÁN LIÊN QUAN Bài toán 1: Phát đặc điểm đặc thù thành cơng dự án Ở tốn nhóm phân tích đặc tính liên quan đến thành cơng thất bại dự án, từ đưa đề xuất cho nhà đầu tư tham khảo Việc nhà đầu tư hiểu phân tích đặc tính bật từ thị trường đầu tư quan trọng cần thiết để thấu hiểu vào lĩnh vực mà đầu tư từ có đầu tư hiệu Bài tốn 2: Dự đốn thành cơng dự án khởi nghiệp (bài toán phân lớp liệu) Bài toán toán quan trọng đề tài nghiên cứu, cho dự báo thành cơng thất bại dựa yếu tố ảnh hưởng đến thành công thất bại dự án Sau sử dụng phương pháp SVM, Tree hồi quy Logistic phần mềm Orange để thực phân lớp, nhóm chọn hồi quy Logistics để dự báo phân tích yếu tố ảnh hưởng đến thành công dự án Việc xây dựng mơ hình báo quan trọng với nhà đầu tư để hỗ trợ việc nghiên cứu dự án thị trường đầu tư để thấy yếu tố tác động đến vấn đề nghiên cứu từ đưa hướng giải hợp lý Bài tốn 3: Phân loại nhóm dự án theo khoảng thời gian bắt đầu dự án (Bài tốn phân cụm) Bài tốn gom nhóm dự án vào thành cụm cho dự án cụm có tương đồng khoảng thời gian bắt đầu Nhóm sử dụng hai phương pháp Clustering K-Means phân cụm dự án thành khoảng, từ dựa vào đặc điểm khoảng thời gian để thấy xu hướng phát triển dự án tảng Kickstarters Các nhà đầu tư đề cao việc thấu hiểu xu hướng thị trường, để lập kế hoạch đầu tư tốt chuẩn bị hiệu cho xu hướng biến động tương lai CHƯƠNG 1: TỔNG QUAN 1.1 Lý chọn đề tài 1.1.1 Kickstarter gì? Kickstarter tảng phổ biến cho phép nhà kinh doanh nhà sáng tạo huy động vốn thơng qua việc trình bày dự án phạm vi tồn cầu (crowdfunding) Người dùng tìm thấy Kickstarter dự án phù hợp góp vốn cho dự án Đây sản phẩm thuộc lĩnh vực Fintech (công nghệ tài chính) với lượng người dùng đa dạng quốc gia, độ tuổi lĩnh vực dự án trải dài từ: thời trang, phim ảnh công nghệ 1.1.2 Lý cụ thể Dù tảng Kickstarter hỗ trợ người nhiều việc huy động vốn để phát triển dự án mình, khơng phải huy động thành cơng Vì vậy, đề tài báo cáo giúp tìm nguyên nhân dẫn đến thành công thất bại dự án Kickstarter thông qua liệu q trình phân tích, sử dụng cơng cụ Orange Đồng thời giúp người đọc hiểu rõ đặc điểm dự án Kickstarter Từ đó, đưa giải pháp, lời khuyên cho người dùng cách thực tế hiệu cho định đầu tư 1.2 Mục tiêu nghiên cứu Trong tập liệu này, thu thập thông tin số lượng lớn dự án Kickstarter liệu cuối chúng có thành cơng hay không đạt mục tiêu tài trợ hay không Dữ liệu thể đóng vai trị nguồn tài nguyên quý giá cho quan tâm đến việc hiểu động lực huy động vốn từ cộng đồng yếu tố góp phần vào thành cơng hay thất bại dự án Bằng cách phân tích liệu này, hiểu rõ đặc điểm dự án Kickstarter thành công không thành công, chẳng hạn mục tiêu tài trợ, danh mục dự án nguồn tài trợ Thông tin sử dụng để thơng báo định đầu tư hướng dẫn chiến dịch gây quỹ cộng đồng tương lai 1.3 Đối tượng phạm vi nghiên cứu 1.3.1 Đối tượng nghiên cứu Nghiên cứu dự án tảng Kickstarter, từ đưa hướng tốt cho nhà đầu tư 1.3.2 Phạm vi nghiên cứu Thông tin số lượng lớn dự án Kickstarter, bao gồm khởi nghiệp công nghệ, nỗ lực nghệ thuật sáng tạo sáng kiến tác động xã hội, nhiều loại khác Phạm vi liệu từ năm 2009 đến 2018 1.4 Mô tả liệu cấu trúc liệu - Bộ liệu: Kickstarter Projects | Kaggle Thuộc tính Ý nghĩa Mơ tả ID Mã định danh dự án chuỗi ký tự số Name Tên dự án chuỗi ký tự chữ Category Thể loại sản phẩm dự án chuỗi ký tự chữ Country Mã quốc gia ký tự viết tắt cho tên quốc gia Launched Thời điểm bắt đầu gọi vốn dự án Giờ, ngày, tháng, năm Deadline Hạn hoàn tất dự án Ngày tháng năm Goal Số vốn cần thiết để dự án thành công chưa quy đổi thành USD Số tự nhiên Pledged Số vốn đầu tư vào dự án chưa quy đổi thành USD Số thập phân State Tình trạng Successful = Thành cơng Failed = Thất Bại Cancelled = Bị hủy Live = Đang gọi vốn Suspended = Bị hỗn Undefined = Khơng xác định Backers Nhà đầu tư Số tự nhiên Bảng 1: Mô tả liệu Kickstarter Projects CHƯƠNG 2: QUY TRÌNH THỰC HIỆN & KẾT QUẢ 2.1 Các phương pháp dự đoán 2.1.1 Phân lớp liệu Thuật toán định Khái niệm: Trong lý thuyết quản trị, định đồ thị định kết kèm nhằm hỗ trợ trình định Cây định (Decision Tree) phân cấp có cấu trúc dùng để phân lớp đối tượng dựa vào dãy luật Các thuộc tính đối tượng thuộc kiểu liệu khác Nhị phân (Binary) , Định danh (Nominal), Thứ Tự(Ordinal), Số lượng (Quantitative) thuộc tính phân lớp phải có kiểu liệu Binary Ordinal Trong lĩnh vực khai thác liệu, định phương pháp nhằm mô tả, phân loại tổng quát hóa tập liệu cho trước Quy trình: Chọn thuộc tính tốt cách sử dụng biện pháp lựa chọn thuộc tính (ASM) để phân chia Biến thành nút định chia tập liệu thành tập nhỏ Bắt đầu tạo cách lặp lại quy trình cách điều kiện phù hợp: o Tất giá trị phân loại thành giá trị thuộc tính o Khơng cịn thuộc tính cịn lại o Khơng có trường hợp Ưu điểm: ● Dễ hiểu ● Khơng địi hỏi việc chuẩn hóa liệu ● Có thể xử lý nhiều kiểu liệu khác ● Xử lý tốt lượng liệu lớn thời gian ngắn Khuyết điểm: ● Khó giải tình liệu phụ thuộc thời gian ● Chi phí xây dựng mơ hình cao Thuật tốn SVM Khái niệm: SVM thuật tốn có giám sát, SVM nhận liệu vào, xem chúng vector không gian phân loại chúng vào lớp khác cách xây dựng siêu phẳng không gian nhiều chiều làm mặt phân cách lớp liệu Để tối ưu kết phân lớp phải xác định siêu phẳng (hyperplane) có khoảng cách đến điểm liệu (margin) tất lớp xa SVM có nhiều biến thể phù hợp với tốn phân loại khác Quy trình: Tìm khoảng cách siêu phẳng đến điểm liệu gần tương ứng với phân lớp SVM cố gắng maximize margin này, từ thu siêu phẳng tạo khoảng cách xa so với bóng xanh đỏ Từ đó, SVM giảm thiểu việc phân lớp sai (misclassification) điểm liệu đưa vào Ưu điểm ● Tiết kiệm nhớ (do trình test cần so điểm liệu với mặt siêu phẳng tìm mà khơng cần tính tốn lại ● Linh hoạt: vừa phân lớp tuyến tính phi tuyến ( sử dụng Kernel khác nhau) ● Xử lý không gian nhiều chiều Nhược điểm ● Trong trường hợp số chiều liệu lớn số dòng liệu SVM cho kết khơng tốt ● Chưa thể tính xác suất phân lớp Thuật toán Logistic Regression Khái niệm: Hồi quy logistic kỹ thuật phân tích liệu sử dụng tốn học để tìm mối quan hệ hai yếu tố liệu Sau đó, kỹ thuật sử dụng mối quan hệ tìm để dự đốn giá trị yếu tố dựa yếu tố cịn lại Dự đoán thường cho số kết hữu hạn, có khơng Quy trình Xác định biến phân lớp (biến phụ thuộc) biến độc lập Sử dụng hàm logistic(sigmoid): 𝑷(𝒚)=𝒔𝒊𝒈𝒎𝒐𝒊𝒅(𝒛) = 𝟏/(𝟏+𝒆^(−𝒛) ) (Với z = w0 + w1x1 + w2x2 + … + wdxd ) Đặt ngưỡng t để phân lớp (nếu 𝑃(𝑦)≥𝑡 phân vào lớp ngược lại) Tìm hệ số(trọng số): w0, w1, w2 , để phù hợp với ước lượng (vì hệ số điều chỉnh tính toán giai đoạn huấn luyện) Ưu điểm ● Hồi quy logistic dễ thực nhiều so với phương pháp khác ● Hồi quy logistic hoạt động tốt trường hợp tập liệu phân tách tuyến tính 10 Bước 4: Liên kết phương pháp tốt với Prediction nối Select Columns (sử dụng Remaining Data) với Prediction Bước 5: Xuất kết dự báo qua Data Table (2) Hình 11: Mơ hình phân lớp 2.3.2.3 Kết nhận xét: * Với Test and Score Hình 11: Kết Test and Score Xét số AUC: Ta thấy mơ hình Tree 0,851; SVM 0,500; Logistic Regression 0,989 Vậy suy Logistic Regression cao Xét số Precision: Ta thấy mơ hình Tree 0,870; SVM 0,391; Logistic Regression 0,964 Vậy suy Logistic Regression cao Vậy ta thấy mơ hình Logistic Regression hiệu 23 * Với Confusion Matrix: Hình 12: Kết Tree • Mơ hình dự đốn Successful thực tế Successful có 58 thực tế Failed • Mơ hình dự đốn Failed thực tế Failed có 116 thực tế Successful 17 Hình 13: Kết SVM Ta thấy mơ hình có tỷ lệ dự đốn gần 100% cột Successful khơng thể dự đốn kết khác nên mơ hình SVM khơng hiệu 24 Hình 14 : Kết Logistic Regression ● Mơ hình dự đốn Successful thực tế Successful có 75 thực tế Failed ● Mơ hình dự đốn Failed thực tế Failed có 117 thực tế Successful Ta có kết từ mơ hình Confusion Matrix: Dự đoán Successful thực tế Failed Dự đoán Failed thực tế Successful Tổng sai lầm loại Tree 17 26 Logistic Regression 8 Bảng 2: Kết từ mơ hình Confusion Matrix Vậy ta thấy số sai lầm mơ hình Logistic Regression nên mơ hình hiệu Từ phương pháp trên, mơ hình Logistic Regression mơ hình hiệu để sử dụng 25 Thực dự báo Predictions với mơ hình Logistic Regression: Hình 15: Kết dự báo Prediction Hình 16 : Kết dự báo từ Prediction sang Data Table (2) 26 Dựa lý thuyết học thực hành phần mềm Orange, báo cáo thực nhiều mơ hình phân lớp bao gồm: SVM, Decision Tree Logistic Regression Báo cáo cho thấy mơ hình hiệu Logistic Regression với số AUC 0,754 Precision 0,636 Ngoài ra, qua Confusion Matrix thấy sai lầm mơ hình Logistic Regression nên dùng mơ hình để dự đoán dự án Kickstarter thành công hay thất bại 2.3.2.4 Kết luận cho nhà đầu tư Các nhà đầu tư nên sử dụng phương pháp Logistic Regression để dự báo khả thành công hay thất bại dự án Kickstarter Qua mơ hình, thấy thành công hay thất bại dự án Kickstarter định lĩnh vực đầu tư dự án Ta thấy tỷ lệ thành công dự Kickstarter không cao, cụ thể: Failed 53%; Successful 36%; Khác (trì hỗn, huỷ bỏ, sống sót) 12% Tuy nhiên để lấy tỷ lệ thành cơng cao, cần lưu tâm lĩnh vực đầu tư (Category), sử dụng tính Excel để kiểm tra lại kết dự báo, ta có bảng tổng hợp tỷ lệ xuất lĩnh vực số dự án thành công sau: ● Dự án thành công nhiều nằm lĩnh vực Film - Điện ảnh (17,8%) Music - Âm nhạc (18,6%) ● Dự án thành cơng nằm lĩnh vực Craft Thủ công (1,4%) Dance - Nhảy múa (1,8%) ● Ngồi ra, ta nhóm Film, Music Games thành nhóm chung lĩnh vực giải trí, thư giãn nhóm chiếm % lớn Từ đó, đưa lời khuyên rằng: dự án Kickstarter có khả thành cơng cao thuộc lĩnh vực Giải trí Hình 17: Kết dự báo Excel 27 2.3.3 Bài toán 3: Phân loại nhóm dự án theo khoảng thời gian bắt đầu dự án (Bài toán phân cụm) 2.3.3.1 Mô tả phương pháp phân cụm (Clustering) Clustering phương pháp phân tích liệu, gom cụm liệu q trình mà tập liệu phân tích phân tách thành nhiều cụm/nhóm khác nhau, cụm phân tách có điểm liệu có Hình : Kết dự báo Excel tương đồng với Các cụm phân có tương đồng phần tử có cụm khác biệt với phần tử cụm khác Clustering phương pháp phân loại không giám sát (Unsupervised classification) phương pháp cách học không giám sát (Unsupervised learning) - phương pháp xây dựng model phân tích - dựa tập liệu "khơng có nhãn", điểm liệu chưa phân loại - mục đích tìm hiểu trích xuất thơng tin giá trị đặc điểm, tính chất quan sát bên Clustering không cố gắng phân loại, ước lượng hay dự báo giá trị biến mục tiêu Hình 18: Mơ hình q trình phân cụm liệu 2.3.3.2 Mơ tả phương pháp K-Means: Có tham số đầu vào thuật toán số cụm k tham số đầu thuật toán trọng tâm cụm liệu Áp dụng cho liệu xuất tập liệu mục cụm sử dụng làm thuộc tính lớp Thuộc tính lớp gốc, tồn tại, chuyển sang thuộc tính meta Tư tưởng K-Means tìm cách phân nhóm đối tượng cho vào k cụm cho tổng bình phương khoảng cách đối tượng đến tâm cụm nhỏ Quy trình thực toán phân cụm Bước 1: Dùng chức Data Sampler để lọc 5000 dòng liệu từ tập Preprocess Data.xlsx k-means xử lý tối đa 5000 dịng liệu Sau lưu liệu vào file excel với tên 5K DATA 28 Hình 19: Quá trình lọc liệu Bước 2: Chọn tập liệu 5K DATA.xlsx, không chọn biến target để biến độc lập feature đồng thời chuyển biến phụ thuộc sang thuộc tính meta bỏ qua (skip) thuộc tính ID Bước 3: Dùng k-means để phân cụm liệu, chọn số clusters từ đến 10 Bước 4: Dùng Silhouette Plot để minh hoạ liệu Dữ liệu từ Silhouette minh hoạ Scatter Plot Data Table Hình 20: Mơ hình q trình xử lý toán phân cụm 29 2.3.3.3 Kết phân loại K-Means Hình 21: Kết K-means biểu đồ Silhouette Plot Chạy K-Means từ đến 10 cụm, theo kết K-means phân cụm sau: Số cụm Điểm Silhouette 0.597 0.570 0.559 0.544 Bảng 3: Kết K-means phân cụm Từ kết nên phân làm nhóm phân làm 3,4,5 nhóm điểm số khơng tăng phân làm 3,5 nhóm bị phân tách nhóm nhiều Hình 22: Hai số Silhouette Scores cao cụm 30 Hình 23: Biểu đồ Scatter Plot tốn phân cụm Ở đồ thị Scatter Plot, thấy phân bố liệu chia thành cụm với nhiều liệu khác nhau, cho kết dựa số Silhouette Launched Có thể thấy cụm nằm khoảng thời gian từ 2009 đến 2014 cụm nằm khoảng thời gian từ 2015 đến 2018 Hình 24: Biểu đồ thể dự án thành cơng thất bại cụm 31 Khi nhìn vào biểu đồ ta thấy giai đoạn C2 (2009 - 2014) số lượng dự án thất bại cao so với dự án thành công tỉ lệ không khác biệt Tuy nhiên giai đoạn C1 (2015 - 2019) tăng nhanh số lượng dự án đầu tư từ dẫn đến tỉ lệ cạnh tranh dự án tăng theo Kết tỷ lệ thất bại dự án tăng lên cách rõ rệt gần gấp đôi so với C2 Hình 25: Biểu đồ thể số dự án ngành cụm Nhìn vào biểu đồ cách tổng quát ta thấy nhóm ngành Film & Video, Music Publishing chiếm tỷ trọng tương đối cao so với ngành lại xuyên suốt giai đoạn 2009 - 2018 Cụ thể C2 (giai đoạn 2009 - 2014), việc đầu tư khởi nghiệp toàn cầu có xu hướng tập trung nhiều vào nhóm ngành thuộc lĩnh vực giải trí Cụ thể, ngành Music Publishing có tốc độ tăng trưởng mạnh đứng thứ hai thứ ba cịn Film giữ vị trí đứng đầu (470 dự án) Và giai đoạn C1 (giai đoạn 2015 - 2018) ngành Film & Video chiếm tỉnh trọng cao có giảm nhẹ so với giai đoạn trước (chỉ cịn 402 dự án) Thay vào nhà đầu tư có xu hướng tập trung nhiều vào ngành Technology Điều cho thấy xu hướng chung giới tập trung vào công nghệ chuyển đổi số 32 Hình 26: Biểu đồ thể số dự án nước cụm Nhìn chung, Mỹ thị trường tiềm nhà đầu tư nhà khởi nghiệp lựa chọn xuyên suốt giai đoạn Ở giai đoạn 2015 - 2018, nhìn chung tồn cầu tập trung vào thị trường Mỹ Mỹ nơi màu mỡ cho nhóm ngành thuộc lĩnh vực giải trí Cịn giai đoạn 2009 - 2014, nhà đầu tư nhìn thấy tiềm để phát triển vài nước như: Germany, Italy, France, nên bắt đầu có gia tăng số dự án đầu tư nước Hình 27: Phân bố cụm theo số nhà đầu tư 33 Nhìn chung số lượng nhà đầu tư giai đoạn C2 (2009 - 2014) cao giai đoạn C1 (2015 - 2018) Trung bình số lượng nhà đầu tư giảm từ 140 cịn 126 nhà đầu tư Hình 28: Phân bố cụm theo số vốn đầu tư Số vốn đầu tư trung bình C2 (2009 - 2014) tăng từ 9810,93 USD lên 12153,94 USD giai đoạn C1(2015 - 2018) Điều dễ hiểu số lượng dự án C2 (2009 - 2014) từ 1923 tăng lên 3077 C1 (2015 - 2018) nên số vốn đầu tư tăng theo Nhưng với số lượng nhà đầu tư giai đoạn C1(2015 - 2018) giai đoạn C2 (2009 - 2014) chứng tỏ nhà đầu tư chi mạnh tay với dự án giai đoạn (2015 - 2018) Hình 29: Phân bố cụm theo số vốn mục tiêu 34 Nhìn chung, số đầu tư tăng nên dẫn đến số vốn mục tiêu tăng theo Cụ thể mức trung bình số vốn đầu tư tăng từ 17591,98 USD giai đoạn C2 lên 65883,53 USD giai đoạn C1 Đặc điểm dự án cụm: Cụm 2: ● Khoảng thời gian bắt đầu dự án: 2009 - 2014 ● Dự án thành công: 901 dự án ● Dự án thất bại: 1022 dự án ● Ngành nhiều dự án: Film&Video (470 dự án) ● Nước nhiều dự án: Mỹ ( 1774 dự án) ● Số nhà đầu tư trung bình: 140 ● Số vốn đầu tư trung bình: 9810,93 USD ● Số vốn mục tiêu trung bình: 17591,98 USD Cụm 1: ● Khoảng thời gian bắt đầu dự án: 2015-2018 ● Dự án thành công: 1133 dự án ● Dự án thất bại: 1944 dự án ● Ngành nhiều dự án: Film&Video (402 dự án) ● Nước nhiều dự án: Mỹ (2163 dự án) ● Số nhà đầu tư trung bình: 126 ● Số vốn đầu tư trung bình: 12153,94 USD ● Số vốn mục tiêu trung bình: 65883,53 USD 2.3.3.4 Kết luận cho nhà đầu tư Nhìn chung, từ đặc điểm cụm dự án ta nhận thấy cụm có yếu tố tương đồng Ngành nhiều dự án Nước nhiều dự án Trong đó, yếu tố phân hóa cụm Khoảng thời gian bắt đầu dự án Đối với tảng Kickstarters, dựa vào đặc điểm thời gian phân cụm trước sau 2014 ta thấy cụm C1 có số cao rõ rệt so với C2 Điều cho thấy xu hướng startup chủ đề ngày nóng hổi cho giới trẻ toàn cầu đặc biệt giai đoạn chuyển giao công nghệ 4.0 chuyển đổi số Việc số lượng dự án tăng nhanh dẫn đến việc tăng cạnh tranh dự án với dẫn đến việc rủi ro thất bại cao Ngồi cịn số vốn đầu tư số dự án đưa ngày cao dẫn đến việc số vốn mục tiêu thu lại cao Việc gây áp lực lớn dự án non trẻ Các nhà đầu tư dựa vào xu hướng đặc điểm cụm để đánh giá có đầu tư hợp lý với xu hướng số lượng dự án tăng nhanh nêu 35 CHƯƠNG KẾT LUẬN Dựa vào toán phân tích liệu nhà đầu tư dự đốn khả thành cơng dự án Kickstarter để đưa định đầu tư phù hợp Từ toán phát đặc thù liệu (bài tốn 1), ta thấy 26,275 dự án có 10,691 dự án thành cơng chiếm tỷ lệ 40,69% 15,584 dự án thất bại chiếm tỷ lệ 59,31% Những ngành có tỉ lệ cạnh tranh cao Film & Video, Publishing Technology với tổng số dự án lĩnh vực cao có tỷ lệ thất bại cao khơng 56.99%, 63.88% 75.29% Bên cạnh thấy dự án có số lượng người tham gia đầu tư lớn 65 người dự án dễ đạt đến thành cơng Dựa vào đặc thù trên, nhà đầu tư hiểu thêm đặc điểm dự án Kickstarter đề kế hoạch đầu tư hợp lý Từ tốn phân lớp (bài tốn 2), nhóm khuyến khích dựa vào Phương pháp hồi quy tuyến tính để dự đốn thành cơng hay thất bại dự án Kickstarter Các nhà đầu tư nên ý đến dự án thuộc lĩnh vực giải trí nhóm dự án có tỷ lệ thành cơng cao Việc lựa chọn dự án phù hợp giúp nhà đầu tư đề kế hoạch cụ thể, chi tiết để dễ đạt đến thành công Từ toán phân cụm (bài toán 3), cụm C1 có số cao đáng kể so với C2, từ điều thấy startup chủ đề kinh doanh xu hướng đặc biệt giai đoạn chuyển giao công nghệ 4.0 chuyển đổi số Sự gia tăng nhanh chóng số lượng dự án dẫn đến cạnh tranh gia tăng nguồn vốn dự án dẫn đến nguy thất bại cao Các nhà đầu tư dựa vào xu hướng đặc điểm cụm để đánh giá có đầu tư hợp lý phát triển số lượng dự án Kickstarter Sau triển khai mơ hình, phân tích đánh giá liệu từ học nhóm thực trên, nhà đầu tư phải cẩn thận ý đến đặc điểm, thông tin đáng tin cậy từ dự án để đưa định đắn hiệu Các nhà đầu tư phải lựa chọn xem xét cẩn thận yếu tố ảnh hưởng đến thành cơng dự án để hội thành cơng tăng lên Đồng thời, xác định chiến lược ngắn hạn dài hạn để nhanh chóng thích ứng với xu hướng dự án tương lai Rủi ro đầu tư dự án giảm thiểu nhà đầu tư hiểu đặc điểm liên quan đến thành công thất bại dự án Nếu mục tiêu kỳ vọng dự án cao đạt thực tế, nhà đầu tư nên xem xét lại chi phí vận hành nguồn vốn xảy rủi ro khiến dự án thất bại, dẫn đến vốn 36 TÀI LIỆU THAM KHẢO Slide đào tạo môn Khoa Học Dữ Liệu – UEH 37

Ngày đăng: 19/05/2023, 05:28

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan