1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu các dự án kickstarter để đưa ra các hướng đi tốt nhất cho nhà đầu tư

40 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu các dự án Kickstarter để đưa ra các hướng đi tốt nhất cho nhà đầu tư
Tác giả Đặng Thu Hà, Âu Thanh Huy, Lê Vũ Thùy My, Lâm Nguyễn Nhi, Võ Huỳnh Bảo Nguyên
Người hướng dẫn Th.S Nguyễn Mạnh Tuấn
Trường học Đại học UEH, Trường Kinh tế, Luật và Quản lý nhà nước
Chuyên ngành Khoa học dữ liệu
Thể loại Dự án cuối kỳ
Năm xuất bản 2022
Thành phố TP.HCM
Định dạng
Số trang 40
Dung lượng 3,93 MB

Cấu trúc

  • CHƯƠNG 1: TỔNG QUAN (6)
    • 1.1. Lý do chọn đề tài (6)
    • 1.2. Mục tiêu nghiên cứu (7)
      • 1.2.1. Mục tiêu tổng quát (7)
      • 1.2.2. Các mục tiêu cụ thể (7)
    • 1.3. Đối tượng và phạm vi nghiên cứu (7)
      • 1.3.1. Đối tượng nghiên cứu (7)
      • 1.3.2. Phạm vi nghiên cứu (7)
    • 1.4. Mô tả dữ liệu (8)
  • CHƯƠNG 2: QUY TRÌNH THỰC HIỆN & KẾT QUẢ (0)
    • 2.1. Phân tích dữ liệu và tiền xử lý dữ liệu (9)
      • 2.1.1. Phân tích cách sử dụng tập dữ liệu (9)
      • 2.1.2. Tiền xử lý dữ liệu (9)
    • 2.2. Bài toán 1: Phát hiện các đặc điểm đặc thù liên quan đến sự thành công và thất bại của dự án dựa vào lược đồ và các công cụ thống kê (11)
      • 2.2.1. Mô tả bài toán (11)
      • 2.2.2. Các phương pháp thể hiện đánh giá dữ liệu: - (11)
      • 2.2.3. Phân tích dữ liệu (13)
      • 2.2.3. Kết luận cho nhà đầu tư (0)
    • 2.3. Bài toán 2: D ự đoán rủi ro thành công của các dự án khởi nghiệp (Bài toán phân lớp) (20)
      • 2.3.1. Lý thuyết: Mô tả phương pháp (20)
      • 2.3.2. Quy trình (21)
      • 2.3.3. Kết quả và nhận xét (22)
      • 2.3.4. Kết luận cho nhà đầu tư (28)
    • 2.4. Bài toán 3: Phân loại các nhóm dự án theo khoảng thời gian bắt đầu dự án (Bài toán phân cụm) (28)
      • 2.4.1. Mô tả phương pháp phân cụm (Clustering) (28)
      • 2.4.2. Mô tả phương pháp K-Means (29)
      • 2.4.3. Quy trình thực hiện bài toán phân cụm (29)
      • 2.4.4. Kết quả phân loại K-Means (31)
      • 2.4.5 Kết luận cho nhà đầu tư (38)
  • CHƯƠNG 3 KẾT LUẬN (0)
  • TÀI LIỆU THAM KHẢO (39)

Nội dung

bài toán Ở này nhóm đã phân tích các đặc tính liên quan đến thành công và thất bại của các dự án, từ đó đưa ra những đề xuất cho nhà đầu tư tham khảo.. bài toán phân cỞ ụm, nhóm đã phân

TỔNG QUAN

Lý do chọn đề tài

Kickstarter là một trong những nền tảng huy động vốn từ cộng đồng hàng đầu thế giới (Wherry & Schor, 2015) Huy động vốn từ cộng đồng là một phương pháp mới để tài trợ cho các dự án kinh doanh qua Internet bằng cách thu hút các khoản đóng góp nhỏ (Calic & Mosakowski, 2016) (Mollick, 2014); , trong đó một nhóm hoặc cá nhân tìm kiếm nguồn tài trợ cho một dự án hoặc liên doanh bằng cách thu hút số tiền tương đối nhỏ từ một số lượng lớn nhà đầu tư (Wherry & Schor, 2015) Nền tảng gây quỹ cộng đồng Kickstarter mang đến cho các doanh nhân cơ hội tìm kiếm nguồn vốn từ các nhà đầu tư để bắt đầu các dự án của họ Khi khởi chạy chiến dịch dự án, người gọi vốn sẽ chỉ định số tiền quỹ cần thiết và thời hạn của chiến dịch, sau đó những nhà đầu tư quan tâm sẽ cam kết tiền để hỗ trợ dự án Chiến dịch sẽ thành công sau khi thời hạn đã đặt kết thúc và tổng số tiền được cam kết bằng hoặc lớn hơn số tiền mục tiêu đã chỉ định (Ryoba, Qu, Ji, & Qu, 2020)

Trước sự phát triển của thị trường, là một nền kinh tế mới nổi ở Đông Nam Á (Bloomberg, 2016), Việt Nam chỉ mới gia nhập (Nguyen, 2017) và hầu như người dân ở các quốc gia mới nổi như Việt Nam ít có khái niệm về huy động vốn từ cộng đồng (Linh & Business, 2019) Mặc dù có sự khác biệt về nền tảng thể chế giữa Việt Nam và các nước phát triển hơn, nhưng điều này không nên cản trở sự phát triển của huy động vốn từ cộng đồng trong nước Chiến dịch huy động vốn từ cộng đồng thành công đầu tiên được ghi nhận tại Việt Nam diễn ra vào giữa năm 2014 để hỗ trợ xuất bản truyện tranh “Long Thần Tượng” Sau hai tháng, dự án này đã huy động được 330 triệu đồng và được coi là nỗ lực gây quỹ cộng đồng thành công và nổi tiếng nhất cho đến thời điểm đó (Long Than Tuong, 2017) Mặc dù số tiền này không thể so sánh với các dự án Kickstarter nổi tiếng, nhưng với thành công của nó, “Long Thần Tượng” đã giới thiệu một phương thức tài trợ mới cho các người gọi vốn tại Việt Nam và chứng minh rằng gọi vốn cộng đồng thực sự có hiệu quả và giúp họ đạt được mục tiêu của mình thông qua xã hội hóa

Với việc gọi vốn trên nền tảng Kickstarters nói riêng và gọi vốn cộng đồng nói chung đang càng được phổ biến rộng rãi, đây có thể là một cơ hội để các nhà đầu tư tại Việt Nam tìm hiểu và tận dụng nền tảng này để đạt được thặng dư lợi ích cho bản thân

Khi các nhà đầu tư đổ vốn vào dự án trên các nền tảng này họ có thể nhận được các gói phần thưởng hoặc lợi ích ưu đãi mà người gọi vốn dự án đặt ra khi vốn được đổ vào dự án của họ

Bài dự án nghiên cứu này nhóm đặt ra các bài toán và ứng dụng phần mềm Orange nhằm giúp cho nhà đầu tư biết một số đặc tính cụ thể của các dự án, các yếu tố ảnh hưởng đến mức độ thành công của dự án cũng như cho biết được xu hướng phát triển của các dự án trên Kickstarter Từ đó các nhà đầu tư có thể có một cái nhìn tổng quan hơn về nền tảng này và có cho bản thân một chiến lược đầu tư hợp lý, an toàn và hiệu quả.

Mục tiêu nghiên cứu

Giúp cho nhà đầu tư biết một số đặc tính cụ thể của các dự án, mô hình dự báo thành công và thất bại của dự án, các yếu tố ảnh hưởng đến mức độ thành công của dự án cũng như cho biết được xu hướng phát triển của các dự án trên Kickstarter Từ đó các nhà đầu tư tại Việt Nam có thể có một cái nhìn tổng quan hơn về nền tảng này và có cho bản thân một chiến lược đầu tư hợp lý, an toàn và hiệu quả

1.2.2 Các mục tiêu cụ thể

Sử dụng phần mềm orange để xử lý dữ liệu và giải quyết các bài toán sau: Bài toán 1: Phát hiện các đặc điểm đặc thù liên quan đến sự thành công và thất bại của dự án dựa vào lược đồ và các công cụ thống kê

Bài toán 2: Dự đoán thành công và thất bại của các dự án khởi nghiệp (bài toán phân lớp dữ liệu)

Bài toán 3: Phân loại các nhóm dự án theo khoảng thời gian bắt đầu dự án (bài toán phân cụm dữ liệu).

Đối tượng và phạm vi nghiên cứu

Nghiên cứu các dự án trên nền tảng Kickstarter từ đó đưa ra các hướng đi tốt , nhất cho các nhà đầu tư

Phạm vi dữ liệu từ năm 2009 đến năm 2018.

Mô tả dữ liệu

Bộ dữ liệu được tổng hợp từ các dự án khởi nghiệp từ nhiều lĩnh vực khác nhau ở khắp nơi trên thế giới: https://www.kaggle.com/datasets/kemical/kickstarter-projects

Bộ dữ liệu được thu thập từ năm 2009 đến năm 2018 trên nền tảng KickStarter Bảng 1.1 Mô tả về những thuộc tính (Attribute) của dữ liệu

Thuộc tính Ý nghĩa Mô tả

ID Mã định danh dự án 1 chuỗi ký tự số

Name Tên dự án 1 chuỗi ký tự chữ

Category Thể loại của sản phẩm dự án 1 chuỗi ký tự chữ

Main_category Lĩnh vực chính của sản phẩm dự án Chữ

Currency Đơn vị tiền đại diện Chữ

Deadline Hạn hoàn tất dự án Ngày tháng năm

Goal Số vốn cần thiết để dự án thành công chưa quy đổi thành USD Số tự nhiên Launched Thời điểm bắt đầu gọi vốn dự án Giờ, ngày, tháng, năm

Pledged Số vốn được đầu tư vào dự án chưa quy đổi thành USD Số thập phân

Successful = Thành công Failed = Thất Bại Cancelled = Bị hủy Live = Đang gọi vốn Suspended = Bị hoãn Undefined = Không xác định

Backers Nhà đầu tư Số tự nhiên

Country Mã quốc gia 2 ký tự viết tắt cho tên quốc gia

QUY TRÌNH THỰC HIỆN & KẾT QUẢ

Phân tích dữ liệu và tiền xử lý dữ liệu

2.1.1 Phân tích cách sử dụng tập dữ liệu

Dữ liệu có những điểm cần hiểu như sau:

• Mỗi hàng đại diện cho 1 dự án trên nền tảng Kickstarters và mỗi cột là một thuộc tính của dự án

• Dữ liệu thô chưa được xử lý gồm 378,661 dự án và 15 cột đặc trưng

• Trong cột dữ liệu state (trạng thái của dự án) có 6 trạng thái là: Successful (Thành công), Failed (Thất bại), Cancelled (Bị hủy), Live (Đang gọi vốn), Suspended (Bị hoãn), Undefined (Không xác định)

Nhìn tổng thể, khi dự án đạt đủ mức vốn cần thiết trước thời hạn deadline thì dự án sẽ đạt được trạng thái Successful (Thành công) Điều này có thể được xác định trong tập dữ liệu khi mức vốn từ cột usd_pleged_real vượt qua mức vốn cần đạt tại cột usd_goal_real trước khoảng thời gian tại cột deadline Nếu không thỏa được điều kiện đã nêu trên trước deadline thì dự án sẽ có trạng thái Failed (Thất bại)

2.1.2 Tiền xử lý dữ liệu

• Bài nghiên cứu này sử dụng bộ dữ liệu được tổng hợp từ trang: https://www.kaggle.com/datasets/kemical/kickstarter-projects

• Trong tập dữ liệu này tác giả đã xử lý các dữ liệu bị thiếu, dữ liệu bị nhiễu và dữ liệu không nhất quán vì thế nhóm sẽ bỏ qua công đoạn xử lý lỗi dữ liệu Thu gọn dữ liệu:

Vì tập dữ liệu quá lớn gồm 378,661 dòng và 15 cột, vì vậy để có thể sử dụng Orange để phân tích dữ liệu một cách hiệu quả, nhóm đã thu gọn dữ liệu còn lại 30,000 dòng bằng công cụ Data Sampler của Orange và lưu lại dữ liệu được giảm vào file excel với tên “SAMPLE DATA.xlsx”

Hình 2.1.2.1 Quá trình thu gọn dữ liệu

• Sau khi có Sample Data, nhóm sử dụng chức năng Filter của excel để lọc ra các dự án có state Successful (Thành công) và Failed (Thất bại) vì đây là những state mà các nhà đầu tư cũng như nhóm quan tâm và muốn nghiên cứu

• Tiếp theo nhóm sử dụng công cụ Select Columns của Orange để loại ra các cột thuộc tính không cần thiết cho đề tài nghiên cứu bao gồm:

➢ Goal: Lý do loại là vì bộ dữ liệu đã được tác giả xử lý và tạo ra cột usd_goal_real, cột này khác với cột goal ở chỗ đã được nhất quán thành đơn vị tiền usd bằng cách sử dụng công cụ Fixer.io API để chuyển đổi

➢ Pledge: Lý do loại là vì bộ dữ liệu đã được tác giả xử lý và tạo ra cột usd_ pleged_real, cột này khác với cột goal ở chỗ đã được nhất quán thành đơn vị tiền usd bằng cách sử dụng công cụ Fixer.io API để chuyển đổi

➢ Currency: Lý do loại là vì đơn vị tiền mà nhóm sử dụng để nghiên cứu là USD nên cột này là không cần thiết

➢ Usd_pledged: Lý do loại là vì cột này sử dụng Kickstarters để chuyển đổi về đơn vị tiền usd, theo như tác giả của tập dữ liệu thì Kickstarters chuyển đổi đơn vị tiền không được chuẩn xác bằng công cụ Fixer.io API được sử dụng để chuyển đổi tại cột Usd_pleged_real

Hình 2.1.2.2 Tiền xử lý d ữ liệu

• Nhóm đã dùng file Sample Data đã lọc ra 2 trạng thái thành công và thất bại đưa vào Orange và dùng công cụ Select Columns để loại ra 4 cột đã nêu trên sau đó lưu lại dữ liệu vào file excel và đặt tên là “PREPROCESS DATA.xlsx” Xác định biến độc lập và phụ thuộc

• Biến phụ thuộc là “State”

• Biến độc lập là các biến còn lại

Bài toán 1: Phát hiện các đặc điểm đặc thù liên quan đến sự thành công và thất bại của dự án dựa vào lược đồ và các công cụ thống kê

thất bại của dự án dựa vào lược đồ và các công cụ thống kê

• Mỗi hàng đại diện cho một dự án, mỗi cột tương ứng với các thuộc tính của đối tượng

• Bài toán tìm ra một số điểm khác biệt và thể hiện một cách trực quan trong các thuộc tính giữa dự án thành công và dự án thất bại

• Các thuộc tính được xem xét và đánh giá sự phân bổ bằng biểu đồ để xác định mức độ ảnh hưởng của thuộc tính đến kết quả “successful” hay “failed”

2.2.2 Các phương pháp thể hiện đánh giá dữ liệu:-

• Biểu đồ hộp (Box Plot): hiển thị sự phân bố của các giá trị thuộc tính, từ đó nhanh chóng phát hiện ra bất cứ bất thường nào và có thể biểu diễn nó ở dạng thanh cho các giá trị dữ liệu phân loại hoặc phạm vi lượng tử cho dữ liệu số

• Biểu đồ phân phối (Distributions): hiển thị phân phối các giá trị của các thuộc tính rời rạc hoặc liên tục một cách trực quan nhất sự chênh lệch của các thuộc tính (đặc điểm dữ liệu) dựa trên số lần mỗi giá trị thuộc tính xuất hiện trong dữ liệu

• Biểu đồ khảm (Mosaic Display): biểu diễn đồ họa của bảng tần suất hai chiều hoặc bảng dự phòng, trực quan hóa dữ liệu từ hai hoặc nhiều biến định tính, nhận ra mối quan hệ giữa các biến khác nhau một cách hiệu quả hơn

• Biểu đồ phân tán điểm (Scatter plot): trực quan hóa biểu đồ phân tán 2 chiều, dữ liệu được hiển thị dưới dạng tập hợp các điểm, mỗi điểm có giá trị của thuộc tính trục x xác định vị trí trên trục hoành và giá trị của thuộc tính trục y xác định vị trí trên trục tung Các thuộc tính khác nhau của biểu đồ, chẳng hạn như màu sắc, kích thước và hình dạng của các điểm, tiêu đề trục, kích thước điểm tối đa và độ rung có thể được điều chỉnh ở phía bên trái của tiện ích thể hiện mối tương quan giữa 2 thuộc tính, đưa ra cái nhìn khái quát của mối liên hệ giữa 2 thuộc tính dữ liệu đó

Hình 2.2.3.1 Số lượng d án thành công trong tự ừng lĩnh vực

Hình 1.1 biểu diễn các lĩnh vực theo thứ tự giảm dần về số lượng dự án Có thể thấy ở những lĩnh vực như Film & Video, Music, Publishing, Games và Technology là các lĩnh vực có đa số các dự án vì vậy mà đây cũng là những lĩnh vực thu hút các nhà đầu tư nhất Cho thấy rằng những lĩnh vực này rất nổi trội và là xu hướng trên nền tảng Kickstarter

Hình 2.2.3.2 Số lượng d án thành công trong tự ừng lĩnh vực

Hình 1.2 biểu diễn các lĩnh vực theo thứ tự giảm dần về tỷ lệ thất bại của dự án

Có thể thấy được rằng tỉ lệ thành công của các dự án là khác nhau cho từng lĩnh vực, có thể thấy ở những lĩnh vực như Film & Video, Music, Publishing, Games và Technology là các lĩnh vực có đa số các dự án như đã nói ở hình 1.1 hế nhưng những dự án t trong lĩnh vực Film & Video, Publishing và Technology ta thấy rằng đa số sẽ thất bại, cụ thể tỷ lệ thất bại của mỗi lĩnh vực là: Film & Video là là 56.99%, Publishing là 63.88% và Technology là 75.29% Có lẽ vì có quá nhiều dự án trong các lĩnh vực này nên mức độ cạnh tranh nguồn vốn cao vì thế các dự án không được chú ý đến sẽ dễ thất bại Ngược lại ở một số lĩnh vực ít dự án hơn như Theater, Comics và Dance thì tỉ lệ thành công là tương đối cao lớn hơn 50% cụ thể là: Theater là 61.58%; Comics là 58.21% và Dance là 62.79% Có thể thấy nếu đầu tư vào các lĩnh vực này sẽ là một sự lựa chọn an toàn hơn cho nhà đầu tư

Hình 2.2.3.3 T l d án thành công qua tỷ ệ ự ừng năm

Nhìn vào biểu đồ trên ta thấy số dự án đầu tư qua các năm tăng dần ở giai đoạn

2009 - 2015, nguyên nhân cho sự gia tăng số dự án vào mỗi năm này là do tỷ lệ dự án thành công cao hơn tỷ lệ dự án thất bại

Nhưng từ năm 2015 trở về sau lượng dự án khởi nghiệp mỗi năm có xu hướng giảm dần, có lẽ nguyên nhân chính ở đây là từ năm 2014 tỷ lệ dự án thất bại lại chiếm tỷ trọng cao hơn tỷ lệ dự án thành công

Có thể cho rằng các nhà khởi nghiệp đang nuôi dự án để đợi đến thời điểm thích hợp, tỷ lệ thành công cao hơn cho họ cơ hội để khởi nghiệp dự án của chính mình

Hình 2.2.3.4 T l d án thành công d a trên m i quan h gi a goal và backers ỷ ệ ự ự ố ệ ữ Khi nhìn vào biểu đồ Mosaic giữa goal và backers, ta thấy rằng tỷ lệ thành công và thất bại có mối liên hệ với mức độ phân phối giữa 2 yếu tố goal và backers Để giải thích rõ hơn, ta thấy rằng những dự án có mức goal cần đạt được càng cao thì để tăng tỉ lệ thành công, các dự án này phải có nhiều nhà đầu tư tham gia vào Nhìn vào biểu đồ, những dự án có goal lớn hơn 15000.5 đa số sẽ thất bại nếu số nhà đầu tư ít hơn 2.5 người, tuy nhiên khi số nhà đầu tư nhiều hơn 66.5 người thì tỉ lệ thành công đã tăng lên Những dự án có mức goal thấp hơn 1999.5 thì khi số nhà đầu tư nhiều hơn 66.5 sẽ có tỉ lệ thành công là rất cao

Vì vậy ta rút ra được ý nghĩa rằng, khi một dự án có mức goal thấp thì nó sẽ dễ thành công hơn các dự án có mức goal cao nếu số nhà đầu tư là như nhau giữa 2 dự án

Và tương tự, khi một dự án có số nhà đầu tư càng nhiều thì tỷ lệ thành công của dự án cũng cao hơn nếu mức goal là như nhau giữa 2 dự án

Hình 2.2.3.5 Số lượng d án kh i nghi p các qu c gia ự ở ệ ở ố

Nhìn hình 4.1 có thể thấy số lượng dự án đầu tư nhiều ở 3 quốc gia US, GB, CA Đặc biệt, nước Mỹ (US) là nước có nhiều dự án nhất, vượt xa các nước còn lại, cho thấy rằng ở Mỹ (US), việc đầu tư vào nền tảng Kickstarters là rất phổ biến với công chúng, ngoài ra số lượng các dự án thành công tại Mỹ cũng tương đối cao (trên 8000 dự án) Tiếp theo là nước Anh (GB) và Canada (CA) có số lượng dự án nhiều chỉ sau Mỹ nhưng nhìn chung vẫn rất nhiều.

Hình 2.2.3.6 T l d án thành công các quỷ ệ ự ở ốc gia

Nhìn vào biểu đồ hình 4.2, ta thấy rằng tỉ lệ thành công giữa các quốc gia có sự khác biệt rõ rệt Ta thấy rằng tỉ lệ thành công của Singapore (SG) là cao nhất trong tất cả các quốc gia, nhưng tại hình 4.1 ta thấy được rằng số lượng dự án tại Singapore (SG) là rất ít nhất, có lẽ vì số lượng ít nên tỉ lệ thành công của các dự án tại Singapore (SG) tương đối cao Mỹ (US) tuy không có tỷ lệ dự án thành công cao như Singapore (SG) nhưng nhìn chung vẫn cao so với đa số các quốc gia khác Vì thế các nhà đầu tư nên đầu tư vào các dự án tại Mỹ nếu muốn đạt được độ an toàn cao

Bài toán 2: D ự đoán rủi ro thành công của các dự án khởi nghiệp (Bài toán phân lớp)

2.3.1 Lý thuyết: Mô tả phương pháp

Phương pháp phân lớp (Classification)

Phân lớp dữ liệu là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp Mô hình này đã được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó Quá trình gán nhãn cho một đối tượng dữ liệu chính là quá trình phân lớp

Các bước thực hiện bài toán phân lớp dữ liệu (Quá trình phân lớp dữ liệu): Quá trình phân lớp dữ liệu gồm 2 bước chính:

➢ Bước 1: Xây dựng mô hình(hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)

✓ Dữ liệu đầu vào: là dữ liệu mẫu đã được gán nhãn và tiền xử lý

✓ Các thuật toán phân lớp: cây quyết định, hàm số toán học, tập luật…

✓ Kết quả của bước này là mô hình phân lớp đã được huấn luyện (trình phân lớp)

➢ Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ.

• Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)

✓ Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được gán nhãn và tiền xử lý Tuy nhiên lúc đưa vào mô hình phân lớp, ta “lờ” đi thuộc tính đã được gán nhãn

✓ Tính đúng đắn của mô hình sẽ được xác định bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mô hình

• Bước 2.2: Phân lớp dữ liệu mới

✓ Dữ liệu đầu vào: là dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn)

✓ Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gì được huấn luyện ở bước 1

Các phương pháp phân lớp được sử dụng trong bài:

● SVM (Support Vector Machine): SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như những các vector trong không gian trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau

● Hồi quy Logistic (Logistic Regression): Là phương pháp nhằm kiểm tra tính hiệu quả của mô hình phân lớp dữ liệu có đặc thù cụ thể, từ đó quyết định có sử dụng mô hình đó hay không Một mô hình lý tưởng là một mô hình không quá đơn giản, không quá phức tạp và không quá nhạy cảm với nhiễu

● Neural Network (NN) là một hệ thống tính toán lấy cảm hứng từ sự hoạt động của các nơron trong hệ thần kinh, là mạng sử dụng các mô hình toán học phức tạp để xử lý thông tin Mạng nơ-ron nhân tạo sử dụng các lớp xử lý toán học khác nhau để hiểu thông tin mà nó được cung cấp Thông thường, một mạng nơ ron nhân tạo có từ hàng chục đến hàng triệu nơron nhân tạo - - được gọi là các đơn vị được sắp xếp thành một loạt các lớp Lớp đầu vào nhận các- dạng thông tin khác nhau từ thế giới bên ngoài Từ lớp đầu vào, dữ liệu đi qua một hoặc nhiều lớp ẩn khác Công việc của các lớp ẩn là biến đầu vào thành thứ mà lớp đầu ra có thể sử dụng

● Lợi ích cho nhà đầu tư, doanh nghiệp:

Khi sử dụng bài toán phân lớp này thì các nhà đầu tư có thể thấy được sự tương quan giữa dự đoán và thực tế Để tránh rủi ro khi dự đoán những dự án thành công nhưng trên thực tế thì chúng thất bại, điều này sẽ làm thất thoát nhiều cho các nhà đầu tư nói riêng cũng như cho mô hình vĩ mô nói chung

Bước 1: Dùng công cụ Data Sampler để tách dữ liệu thành 70% và 30% Sau đó lưu dữ liệu lại

Bước 2: Tại File “DATA 70%.xlsx” bỏ các biến không liên quan đến đề tài bao gồm ID, deadline, launched, deadline, name, category Chọn biến State làm biến target Bước 3: Nối file “DATA 70%.xlsx” với Test and Score (gồm 3 phương pháp LR; SVM; NN), trong đó Test and Score nối với Confusion Matrix để thực hiện đánh giá kết quả và đánh giá ma trận nhầm lẫn

Bước 4: Liên kết phương pháp tốt nhất với file “DATA 70%.xlsx” và nối file này vào công cụ Prediction, đồng thời cũng nối file “DATA 30%.xlsx” vào công cụ Prediction để tiến hành dự báo

Bước 5: Xuất kết quả dự báo qua data table

2.3.3 Kết quả và nhận xét:

Hình 2.3.3.1 Mô hình phân l p d ớ ự đoán rủi ro thành công c a các d án khủ ự ởi nghiệp

Dựa vào kết quả 3 mô hình trên, ta có thể thấy được với sai lầm loại 2 dự đoán rằng, nếu dự án thành công nhưng trong thực tế thì dự án đó thất bại thì điều đó sẽ ảnh hưởng đến vốn đầu tư của các nhà đầu tư Nếu sai lầm này càng nhiều thì càng chứng tỏ nhà đầu tư rót tiền xuống bể càng lớn Vì vậy chúng ta sẽ đi tìm dư đoán này với mức thấp nhất

So sánh kết quả của LR, SVM, NN ta có thể thấy rằng:

LR = 7 < NN = 470 < SVM = 7643 Từ đó ta đưa ra kết luận chọn LR để thực hiện dự báo và không cần xét Test and Score

Phân tích các nhân tố hồi quy

Bảng 2.3.3.1 Các nhân t hố ồi quy

Từ các nhân tố được hồi quy trên nhóm có một số kết luận như sau:

● Nhân tố số nhà đầu tư (backers) có ảnh hưởng tích cực lên sự thành công của dự án, khi càng có nhiều nhà đầu tư đổ vốn vào dự án thì khả năng thành công của dự án sẽ càng tăng lên

● Ta thấy có 12 nước có mức ảnh hưởng tích cực lên mức độ thành công của dự án bao gồm nước AT, BE, DE, ES, GB, IE, IT, MX, BO, SG, SE, US và trong

12 nước đó nước có ảnh hưởng tích cực nhất lên dự án là nước Đức (DE), nghĩa là khả năng dự án thành công trong các quốc gia này tốt, khuyến khích nhà đầu tư nên đầu tư vào dự án của 12 quốc gia kể trên Có thể thấy nước Canada (CA) có mức ảnh hưởng tiêu cực lớn nhất ( 0,2) nghĩa là khả năng dự án thất bại tại - nước Canada là cao nhất, vì thế khuyến khích nhà đầu tư không nên đầu tư vào nước này

● Ta có thể thấy có 9 lĩnh vực có mức ảnh hưởng tích cực lên mức độ thành công của dự án bao gồm lĩnh vực Art, Crafts, Dance, Film&Video, Journalism, Music, Photography, Publishing và Technology nghĩa rằng khả năng dự án thành công trong các lĩnh vực trên là tốt Ta thấy 2 lĩnh vực Photography (0,59) và Music (0,59) là 2 lĩnh vực ngành có mức ảnh hưởng tích cực nhất đến mức độ thành công của dự án so với tổng quan các lĩnh vực, khuyến khích nhà đầu tư nên đầu tư vào các dự án trong các lĩnh vực nêu trên Có thể thấy lĩnh vực Comics (-0,9) là lĩnh vực có mức ảnh hưởng tiêu cực nhất trong số các lĩnh vực ngành vì thế khuyến khích nhà đầu tư không nên đổ vốn vào lĩnh vực nêu trên

● Nhân tố mục tiêu vốn cần đạt được (usd_goal_real) có ảnh hưởng tiêu cực đến sự thành công của dự án, nghĩa rằng khi mục tiêu số lượng vốn cần để dự án thành công càng cao thì khả năng dự án thất bại cũng càng lớn Khuyến khích các nhà đầu tư không nên đầu tư vào các dự án có mục tiêu số lượng vốn cần đạt được quá cao

Bài toán 3: Phân loại các nhóm dự án theo khoảng thời gian bắt đầu dự án (Bài toán phân cụm)

2.4.1 Mô tả phương pháp phân cụm (Clustering)

• Clustering là phương pháp phân tích dữ liệu, gom cụm dữ liệu là quá trình mà trong đó tập dữ liệu được phân tích sẽ được phân tách thành nhiều cụm/nhóm khác nhau, trong mỗi cụm được phân tách ra sẽ có các điểm dữ liệu có sự tương đồng với nhau Các cụm được phân ra sẽ có sự tương đồng giữa những phần tử có cùng cụm và khác biệt với những phần tử của những cụm khác

• Clustering là phương pháp phân loại không giám sát (Unsupervised classification) đây là một phương pháp của cách học không giám sát

(Unsupervised learning) - phương pháp xây dựng các model phân tích dựa - trên tập dữ liệu "không có nhãn", các điểm dữ liệu chưa được phân loại mục - đích tìm hiểu và trích xuất được những thông tin giá trị về đặc điểm, tính chất của những quan sát bên trong

• Clustering không cố gắng phân loại, ước lượng hay dự báo giá trị của biến mục tiêu

2.4.2 Mô tả phương pháp K-Means:

Có tham số đầu vào của thuật toán là số cụm k và tham số đầu ra của thuật toán là các trọng tâm của các cụm dữ liệu Áp dụng cho dữ liệu và xuất ra một tập dữ liệu mới trong đó chỉ mục cụm được sử dụng làm thuộc tính lớp Thuộc tính lớp gốc, nếu nó tồn tại, được chuyển sang thuộc tính meta

Tư tưởng chính của K-Means là tìm cách phân nhóm các đối tượng đã cho vào k cụm sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm cụm là nhỏ nhất

2.4.3 Quy trình thực hiện bài toán phân cụm

Bước 1: Dùng chức năng Data Sampler để lọc ra 5000 dòng dữ liệu từ tập PREPROCESS DATA.xlsx vì k-means chỉ có thể xử lý tối đa 5000 dòng dữ liệu Sau đó lưu dữ liệu vào file excel với tên 5K DATA

Bước 2: Chọn tập dữ liệu 5K DATA.xlsx, không chọn biến target và để các biến độc lập là feature đồng thời chuyển biến phụ thuộc sang thuộc tính meta

Bước 3: Dùng phương pháp k means để phân cụm dữ liệu, chọn số clusters từ 2 - đến 10

Bước 4: Dùng Silhouette Plot để minh hoạ dữ liệu Dữ liệu từ Silhouette có thể được minh hoạ trên Scatter Plot hoặc Data Table

Hình 2.4.3.1 Mô hình quá trình x lý bài toán phân c m ử ụ

2.4.4 Kết quả phân loại K-Means

Hình 2.4.4.1 K t qu K-means và biế ả ểu đồ Silhouette Plot

Chạy K Means từ 2 đến 10 cụm, theo kết quả của K means phân cụm như sau:- -

Số cụm Điểm Silhouette Phân tách

Bảng 2.4.4.1 K t qu K-means phân cế ả ụm

Từ kết quả trên nên phân làm 2 nhóm vì phân làm 3,4,5 nhóm điểm số sẽ không tăng và phân làm 3,5 nhóm sẽ bị phân tách nhóm nhiều hơn

Hình 2.4.4.2 Biểu đồ Scatter Plot bài toán phân c m ụ Ở đồ thị Scatter Plot, có thể thấy được từng phân bố dữ liệu được chia ra thành những cụm với nhiều dữ liệu khác nhau, cho ra kết quả căn cứ dựa trên 2 chỉ số chính là Silhouette và launched Có thể thấy rằng cụm 2 nằm trong khoảng thời gian từ 2009 đến 2014 và cụm 1 nằm trong khoảng thời gian từ 2015 đến 2018

Hình 2.4.4.3 Biểu đồ thể hiện dự án thành công và thấ ạ ủa 2 c m t b i c ụ

Khi nhìn vào biểu đồ này ta thấy rằng ở giai đoạn C2 (2009 2014) thì số lượng - những dự án thất bại cao hơn so với dự án thành công nhưng tỉ lệ này là không quá khác biệt Tuy nhiên ở giai đoạn tiếp theo C1 (2015 2019) do sự tăng nhanh về số lượng - của các dự án đầu tư từ đó dẫn đến tỉ lệ cạnh tranh giữa các dự án cũng tăng theo Kết quả là tỷ lệ thất bại của các dự án này tăng lên một cách rõ rệt gần gấp đôi so với C2

Hình 2.4.4.4 Biểu đồ thể hiện số ự d án t ng ngành c a 2 c m ừ ủ ụ

Nhìn vào biểu đồ một cách tổng quát ta thấy 3 nhóm ngành Film & Video, Music và Publishing chiếm tỷ trọng tương đối cao so với các ngành còn lại trong xuyên suốt giai đoạn 2009 2018 Cụ thể ở C2 (giai đoạn - 2009 - 2014), việc đầu tư khởi nghiệp trên toàn cầu có xu hướng tập trung nhiều vào các nhóm ngành thuộc lĩnh vực giải trí

Cụ thể, ngành Music và Publishing có tốc độ tăng trưởng mạnh lần lượt đứng thứ hai và thứ ba còn Film thì vẫn giữ vị trí đứng đầu (470 dự án) Và giai đoạn C1 (giai đoạn

2015 - 2018) mặc dù ngành Film & Video vẫn chiếm tỉnh trọng cao nhất nhưng có sự giảm nhẹ so với giai đoạn trước đó (chỉ còn 388 dự án) Thay vào đó các nhà đầu tư có xu hướng tập trung nhiều vào các ngành Technology Điều này cho thấy xu hướng chung của thế giới hiện nay là tập trung vào công nghệ chuyển đổi số.

Hình 2.4.4.5 Biểu đồ thể hiện số ự d án từng nước của 2 c m ụ

Nhìn chung, Mỹ luôn là một thị trường tiềm năng được các nhà đầu tư và các nhà khởi nghiệp lựa chọn trong xuyên suốt 2 giai đoạn Ở giai đoạn 2015 - 2018, nhìn chung toàn cầu chỉ tập trung vào thị trường Mỹ bởi vì Mỹ là nơi màu mỡ cho các nhóm ngành thuộc lĩnh vực giải trí Còn ở giai đoạn 2009 - 2014, các nhà đầu tư nhìn thấy được sự tiềm năng để phát triển ở một vài nước như: DE, NL, IT, nên đã bắt đầu có sự gia tăng về số dự án được đầu tư ở các nước này

Hình 2.4.4.6 Phân b c m theo s ố ụ ố nhà đầu tư

Nhìn chung số lượng các nhà đầu tư ở giai đoạn C2 (2009 2014) thấp hơn ở - giai đoạn C1 (2015 2018) Trung bình số lượng nhà đầu tư tăng từ 90 lên 105.-

Hình 2.4.4.7 Phân b c m theo s vố ụ ố ốn đầu tư

Số vốn đầu tư trung bình của C2 tăng từ 6012.69 US lên 8360.22 US ở giai đoạn C1 Điều này dễ hiểu vì số lượng dự án ở C2 từ 1870 tăng lên 3030 ở C1 nên số vốn đầu tư cũng tăng theo

Nhìn chung, do số đầu tư tăng nên dẫn đến số vốn mục tiêu cũng tăng theo Cụ thể mức trung bình của số vốn đầu tư tăng từ 15032.45 US ở giai đoạn C2 lên 24736.34

US ở giai đoạn C1 Đặc điểm của các dự án trong 2 cụm:

• Khoảng thời gian bắt đầu dự án: 2009 - 2014

• Dự án thành công: 917 dự án

• Dự án thất bại: 1053 dự án

• Ngành nhiều dự án: Film&Video ( 470 dự án)

• Nước nhiều dự án: Mỹ ( 1816 dự án)

• Số nhà đầu tư trung bình: 90

• Số vốn đầu tư trung bình: 6012.6922

• Số vốn mục tiêu trung bình: 15032.4468

• Khoảng thời gian bắt đầu dự án: 2015-2018

• Dự án thành công: 1110 dự án

• Dự án thất bại: 1920 dự án

• Ngành nhiều dự án: Film&Video (388 dự án)

• Nước nhiều dự án: Mỹ (2160 dự án)

• Số nhà đầu tư trung bình: 105.34

• Số vốn đầu tư trung bình: 8360.2164

• Số vốn mục tiêu trung bình: 24736.3375

2.4.5 Kết luận cho nhà đầu tư

Nhìn chung, từ đặc điểm của 2 cụm dự án ta nhận thấy các cụm có 2 yếu tố tương đồng là Ngành nhiều dự án và Nước nhiều dự án Trong đó, yếu tố là phân hóa các cụm chính là Khoảng thời gian bắt đầu dự án Đối với nền tảng Kickstarters, dựa vào các đặc điểm của thời gian phân cụm là trước và sau 2014 thì ta thấy cụm C1 có những chỉ số cao hơn rõ rệt so với C2 Điều này cho thấy xu hướng startup sẽ là chủ đề ngày càng nóng hổi cho giới trẻ trên toàn cầu đặc biệt là trong giai đoạn chuyển giao công nghệ 4.0 và chuyển đổi số Việc số lượng các dự án tăng nhanh như thế sẽ dẫn đến việc tăng sự cạnh tranh giữa các dự án với nhau dẫn đến việc rủi ro thất bại sẽ cao hơn Ngoài ra còn do số vốn đầu tư của một số dự án đưa ra ngày càng cao dẫn đến việc số vốn mục tiêu thu lại sẽ cao Việc này đôi khi sẽ gây ra áp lực lớn đối với các dự án non trẻ Các nhà đầu tư có thể dựa vào xu hướng và đặc điểm của các cụm để đánh giá và có một sự đầu tư hợp lý với xu hướng số lượng dự án tăng nhanh như đã nêu trên

Sau khi triển khai mô hình, phân tích và đánh giá dữ liệu từ 3 bài học mà nhóm đã đề ra, các nhà đầu tư cần có sự thận trọng và sự quan tâm nhất định đến các tín hiệu tin cậy nhằm đưa ra quyết định đúng đắn, thành công nhất Nhà đầu tư cần cẩn thận lựa chọn cân nhắc các yếu tố ảnh hưởng đến mức độ thành công của dự án để có thể khiến cơ hội thành công tăng lên Đồng thời, đề ra các chiến lược trong ngắn hạn cũng như dài hạn để thích ứng kịp thời các xu hướng của những dự án trong tương lai Rủi ro đầu tư dự án sẽ có thể được hạn chế nếu các nhà đầu tư hiểu được các đặc tính liên quan đến sự thành công và thất bại của dự án Nếu mục đích hoặc kỳ vọng của dự án đề ra là rất cao hoặc không thể thực hiện được trên thực tế, các nhà đầu tư nên xem xét lại các chi phí hoạt động và nguồn vốn vì có thể sẽ phải đối mặt với rủi ro dự án trở nên thất bại gây lỗ vốn

Ngày đăng: 08/04/2024, 08:03

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w