Đánh giá sự thành công của các ico bằng text mining và lập mô hình máy học dự báo giá tiền điện tử

Nguy n Th ễ ị Ngọc Trang 18126074 ngoctrang31700@gmail.com Thông tin đề tài- Tên của đề tài: Đánh giá sự thành công của các ICO bằng text-mining và lập mô hình máy học dự báo giá tiền đi

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH

KHOA KINH T ẾNGÀNH THƯƠNG MẠI ĐIỆN TỬ

KHÓA LU N T T NGHI P Ậ Ố Ệ

Đề tài ĐÁNH GIÁ SỰ THÀNH CÔNG CỦA CÁC ICO BẰNG TEXT-MINING VÀ LẬP MÔ HÌNH MÁY H C D BÁO GIÁ TI Ọ Ự ỀN ĐIỆ N T Ử

Trang 2

ii

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH

KHOA KINH T ẾNGÀNH THƯƠNG MẠI ĐIỆN TỬ

KHÓA LU N T T NGHI P Ậ Ố Ệ

Đề tài ĐÁNH GIÁ SỰ THÀNH CÔNG CỦA CÁC ICO BẰNG TEXT-MINING VÀ LẬP MÔ HÌNH

MÁY H C D BÁO GIÁ TI Ọ Ự ỀN ĐIỆ N T Ử

Trang 3

i

THÔNG TIN KHÓA LU N TẬ ỐT NGHI P Ệ

Thông tin sinh viên

1 Phan Th Minh Phị ụng 18126046 minhphungphan1806@gmail.com

2 Nguy n Th ễ ị Ngọc Trang 18126074 ngoctrang31700@gmail.com Thông tin đề tài

- Tên của đề tài: Đánh giá sự thành công của các ICO bằng text-mining và lập mô hình máy học dự báo giá tiền điện tử

- Đơn vị qu n lý: Bả ộ môn Thương Mại Điện Tử, Khoa Kinh Tế, Trường Đại Học Sư Phạm Kỹ Thuật Tp Hồ Chí Minh

- Thời gian th c hi n: T ự ệ ừ ngày 30/08/2021 đến ngày 31/05/2022

- Thời gian b o vả ệ trước hội đồng:

Lời cam đoan của sinh viên

Chúng tôi là Phan Th Minh Ph ng và Nguy n Thị ụ ễ ị Ngọc Trang cam đoan đồ án tốt nghiệp là công trình nghiên c u cứ ủa chúng tôi dướ ự hướng d n c a thi s ẫ ủ ạc sĩ Trần Kim To i và các tài li u tham khạ ệ ảo đính kèm ở cuối báo cáo K t qu công bế ả ố trong

đồ án tốt nghiệp là trung thực và không sao chép từ bất k công trình nào khác ỳ

Tp HCM, ngày … tháng … năm 2022 Người thực hiện Người thực hiện

(Ký và ghi rõ h tên)ọ (Ký và ghi rõ h tên) ọ

Giảng viên hướng dẫn xác nhận quyển báo cáo đã được chỉnh sửa theo đề nghị được ghi trong biên bản của H i đồng đánh giá Khóa luận tốt nghiệp ộ

………

Xác nhận của B Môn ộ

Tp.HCM, ngày … tháng … năm 2022 Giáo viên hướng dẫn

(Ký, ghi rõ h tên và họ ọc hàm ọc vị- h )

Trang 4

ii

(Dùng cho giảng viên hướng dẫn)

Đề tài: Đánh giá sự thành công c a các ICO bằng text-mining và l p mô hình ủ ậmáy h c d báo giá tiọ ự ền đi n tử ệ

Giảng viên hướng dẫn: ThS Trần Kim Toại

1 Phan Th Minh Phị ụng 18126046

2 Nguy n Th ễ ị Ngọc Trang 18126074

Nhận xét bao gồm các nội dung sau đây:

1 Tính hợp lý trong cách đặ ấn đềt v và gi i quy t vả ế ấn đề; ý nghĩa khoa học và thực tiễn [15/100]:

Đặt vấn đề rõ ràng, mục tiêu cụ thể [5]; đề tài có tính mới, cấp thiết [5]; đ tài có khả ềnăng ứng dụng, tính sáng tạo [5]

2 Phương pháp thực hiện/ phân tích/ thiết kế [25/100]:

Phương pháp hợp lý và tin c y dậ ựa trên cơ sở lý thuyết [10]; có phân tích và đánh giá phù hợp [10]; có tính mới và tính sáng tạo [5]

3 Kết quả thực hiện/ phân tích và đánh giá kết qu / kiả ểm định thiết kế [25/100]: Phù h p v i m c tiêu ợ ớ ụ [10]; phân tích và đánh giá / kiểm th ử thiết k h p lý ế ợ [10]; có tính sáng tạo/ kiểm định chặt chẽ và đảm bảo độ tin cậy [5]

4 Kết luận và đề xuất [10/100] :

Kết luận phù h p vợ ới cách đặ ấn đề, đề xuất v t mang tính c i ti n và thả ế ực tiễn [5]; kết luận có đóng góp mới mẻ, đề xuất sáng tạo và thuyết phục [5]

Trang 5

iii

5 Hình th c trình bày, b cứ ố ục và chất lượng báo cáo [15/100]:

Văn phong nhất quán, bố cục hợp lý, cấu trúc rõ ràng, đúng định dạng mẫu [5]; có tính hấp d n, th hiẫ ể ện năng lực tốt, văn bản trau chuốt [15]

6 Kỹ năng chuyên nghiệp và tính sáng t o: ạ Thể hi n các kệ ỹ năng giao tiếp, kỹ năng làm việc nhóm, và các k nỹ ăng chuyên nghiệp khác trong việc thực hiện đề tài

7 Tài li u trích d n [10/100] ệ ẫ

Tính trung th c trong vi c trích d n tài li u tham kh o; tính phù h p c a các tài li u ự ệ ẫ ệ ả ợ ủ ệtrích dẫn; trích dẫn theo đúng chỉ ẫ d n APA

8 Đánh giá về sự trùng lặp của đề tài

Cần khẳng định đề tài có trùng l p hay không? Nặ ếu có, đề nghị ghi rõ mức độ, tên

đề tài, nơi công bố, năm công bố ủa đề tài đã công bố c

9 Những nhược điểm và thi u sót, nhế ững điểm cần được bổ sung và ch nh s a* ỉ ử

10 Nh n xét tinh thậ ần, thái độ ọ ậ h c t p, nghiên c u cứ ủa sinh viên

Đề ngh của giảng viên ị

Ghi rõ “Báo cáo đạt / không đạt yêu cầu của một khóa luận tốt nghiệp cử nhân và được phép/ không được phép bảo vệ khóa luận t t nghiố ệp”

Tp HCM, ngày … tháng … năm 2022

Người nhận xét (Ký và ghi rõ h tên) ọ

Trang 6

Giảng viên hướng dẫn: ThS Trần Kim Toại

1 Phan Th Minh Phị ụng 18126046

2 Nguy n Th ễ ị Ngọc Trang 18126074

Nhận xét bao gồm các nội dung sau đây:

1 Tính hợp lý trong cách đặ ấn đềt v và gi i quy t vả ế ấn đề; ý nghĩa khoa học và thực tiễn [15/100]:

Đặt vấn đề rõ ràng, m c tiêu cụ ụ thể[5]; đề tài có tính m i, c p thiớ ấ ết [5]; đề tài có kh ảnăng ứng dụng, tính sáng tạo [5]

2 Phương pháp thực hiện/ phân tích/ thiết kế [25/100]:

Phương pháp hợp lý và tin c y dậ ựa trên cơ sở lý thuyết [10]; có phân tích và đánh giá phù hợp [10]; có tính mới và tính sáng tạo [5]

3 Kết quả thực hiện/ phân tích và đánh giá kết qu / kiả ểm định thiết kế [25/100]: Phù h p v i m c tiêu ợ ớ ụ [10]; phân tích và đánh giá / kiểm th ử thiết k h p lý ế ợ [10]; có tính sáng tạo/ kiểm định chặt chẽ và đảm bảo độ tin cậy [5]

4 Kết luận và đề xuất [10/100]:

Kết luận phù h p vợ ới cách đặ ấn đề, đề xuất v t mang tính c i ti n và thả ế ực tiễn [5]; kết luận có đóng góp mới mẻ, đề xuất sáng tạo và thuyết phục[5]

Trang 7

v

5 Hình th c trình bày, b cứ ố ục và chất lượng báo cáo [15/100]: Văn phong nhất quán, bố cục hợp lý, cấu trúc rõ ràng, đúng định dạng mẫu [5]; có tính hấp d n, th hiẫ ể ện năng lực tốt, văn bản trau chuốt [15]

6 Tài li u trích d n [10/100] ệ ẫ Tính trung th c trong vi c trích d n tài li u tham kh o; tính phù h p c a các tài li u ự ệ ẫ ệ ả ợ ủ ệ trích dẫn; trích dẫn theo đúng chỉ ẫ d n APA

7 Đánh giá về sự trùng lặp của đề tài Cần khẳng định đề tài có trùng l p hay không? Nặ ếu có, đề nghị ghi rõ mức độ, tên đề tài, nơi công bố, năm công bố ủa đề tài đã công bố c

8 Những nhược điểm và thi u sót, nhế ững điểm cần được bổ sung và ch nh sỉ ửa*

Câu hỏi sinh viên phải trả ờ l i trư c hội đồng* (ít nh t 02 câu)ớ ấ

Đánh giá chung - Điểm (Quy về thang điểm 10 không làm tròn): ………./10

- Xếp lo i chung ạ (Xuất sắc, Giỏi, Khá, Trung bình, Y u, Kém) ế

Trang 8

vi

Đề ngh c a giảng viên ph n biện ị ủ ả

Ghi rõ: “Báo cáo đạt/ không đạt yêu cầu của một khóa luận tốt nghiệp kỹ sư, và được phép/ không được phép bảo vệ khóa luận tốt nghiệp”

Tp HCM, ngày … tháng … năm 2022

Người nhận xét (Ký và ghi rõ h tên)ọ

Trang 9

vii

Lời đầu tiên, chúng tôi xin chân thành g i l i cử ờ ảm ơn đến GVHD th y Tr n Kim ầ ầToại đã hướng d n nhóm m t cách tẫ ộ ận tình cũng như có những h ỗ trợ để nhóm có th ểhoàn thành đồ án đúng tiến độ và hoàn chỉnh nhất Trong quá trình thực hiện đồ án, thầy đã chỉ dẫn và cung cấp nhiều kiến thức mới trong lĩnh vực Machine Learning – một lĩnh vực mà đối với nhóm còn khá mới mẻ Đây là nền tảng rất tốt và vô cùng quan tr ng, giúp nhóm có th hoàn thiọ ể ện đồ án và hỗ trợ ề n n ki n thế ức cho các công việc và nghiên c u sau này.ứ

Đồng thời, nhóm cũng gửi lời cảm ơn đến các giảng viên trường Đạ ọc Sư i hPhạm Kỹ Thuật TP.HCM Trong th i gian h c t p tờ ọ ậ ại trường, các giảng viên đã hỗtrợ, cung cấp nhiều kiến thức và kĩ năng, làm nền tảng để các thành viên trong nhóm

có nền tảng để hoàn thành được đồ án t t nghi p này.ố ệ

Lời cu i cùng, chúng tôi xin gố ửi đến quý Thầy, Cô trường Đại học Sư phạm K ỹthuật TP.HCM l i chúc s c kh e dờ ứ ỏ ồi dào cũng như lời chúc tiếp tục nâng bước, h ỗtrợ cho nh ng th h ữ ế ệ sinh viên và đạt được nhiều hơn nữa thành công trong công việc tương lai

Nhóm xin chân thành cảm ơn!

Tp HCM, ngày … tháng … năm 2022 Sinh viên th c hi n ự ệ

Nguyễn Th ị Ngọc Trang Phan Th Minh Ph ng ị ụ

Trang 10

i

MỤC LỤC

MỤC LỤC i

DANH MỤC HÌNH ẢNH iv

DANH M C BỤ ẢNG BI U vi Ể DANH MỤC CÁC TỪ VIẾT T T vii Ắ TÓM T T viii Ắ ABSTRACT ix

CHƯƠNG 1 TỔNG QUAN ĐỀ TÀI 1

1.1 GIỚI THIỆU ĐỀ TÀI 1

1.2 TÍNH CẤP THIẾT CỦA ĐỀ TÀI 1

1.3 CÁC CÔNG TRÌNH NGHIÊN C U CÓ LIÊN QUAN 3 Ứ 1.4 NHỮNG ĐIỂM MỚI CỦA ĐỀ TÀI 6

1.5 M C TIÊU NGHIÊN C U 7 Ụ Ứ 1.6 ĐỐI TƯỢNG, PHẠM VI, PHƯƠNG PHÁP NGHIÊN CỨU 8

1.7 B C C CỐ Ụ ỦA ĐỀ TÀI 9

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 10

2.1 ICO LÀ GÌ? 10

2.2 THUẬT TOÁN KNN (K-NEAREST NEIGHBORS) 10

2.3 THUẬT TOÁN NAIVE BAYES 11

2.4 CONFUSION MATRIX 12

2.5 MÔ HÌNH RNN (RECURRENT NEURAL NETWORK) 13

2.6 MÔ HÌNH LSTM (LONG SHORT - TERM MEMORY) 15

2.7 MÔ HÌNH CNN (CONVOLUTIONAL NEURAL NETWORK) 16

CHƯƠNG 3 PHƯƠNG PHÁP THỰC HIỆN 18

3.1 LƯU ĐỒ Ổ T NG QUAN QUÁ TRÌNH THỰC HIỆN ĐỀ TÀI 18

3.2 PHƯƠNG PHÁP ĐÁNH GIÁ SỰ THÀNH CÔNG C A CÁC ICO 18 Ủ 3.2.1 Thu thập whitepaper của các ICO 18

3.2.2 Lưu đồ thực hiện text-mining đánh giá sự thành công các ICO 19

3.2.3 C u hình ph n c ng hu n luyấ ầ ứ ấ ện thu t toán 21 ậ 3.2.4 Xây d ng thuự ật toán KNN 21

Trang 11

ii

3.2.5 Xây d ng thuự ật tốn Naive Bayes 26

3.3 PHƯƠNG PHÁP DỰ BÁO GIÁ TIỀN ĐIỆN T 29 Ử 3.3.1 Thu thập dữ liệu giá tiền điệ ửn t 29

3.3.2 Lựa chọn các ICO thành cơng để ự đốn giá d 32

3.3.3 Lưu đồ thực hiện xây d ng các mơ hình d ự ự đốn giá 33

3.3.4 C u hình ph n c ng hu n luyấ ầ ứ ấ ện mơ hình 34

3.3.5 Xử lý dữ liệu 35

3.3.6 Các chỉ ố ệ s hi u su t 36 ấ 3.3.7 Xây d ng mơ hình RNN 37 ự 3.3.8 Xây d ng mơ hình LSTM 38 ự 3.3.9 Xây d ng mơ hình CNN 40 ự 3.3.10 Tối ưu hĩa các tham số 41

CHƯƠNG 4 KẾT QUẢ THỰC HIỆN 43

4.1 KẾT QUẢ ĐÁNH GIÁ SỰ THÀNH CƠNG C A CÁC ICO 43 Ủ 4.1.1 Thuật tốn KNN 43

4.1.2 Thuật tốn Nạve Bayes 44

4.1.3 So sánh thu t tốn KNN và Nạve Bayes 45 ậ 4.2 KẾT QUẢ Ự D BÁO GIÁ TIỀN ĐIỆN TỬ 45

4.2.1 Kết quả ựa chọ l n mơ hình 45

4.2.2 Kết quả ối ưu hĩa các tham số ủ t c a mơ hình 46

4.2.3 Kết quả ự d báo giá trong 60 phút cu i 51 ố 4.3 TỔNG KẾT KẾT QUẢ THỰC NGHI M 56 Ệ CHƯƠNG 5 KẾT LUẬN ĐỀ TÀI - ĐỀ XUẤT HƯỚNG PHÁT TRIỂN 57

5.1 CÁC KẾT QUẢ ĐẠT ĐƯỢC 57

5.1.1 Hồn thành các mục tiêu 57

5.1.2 Trả ờ l i được các câu hỏi nghiên cứu 57

5.2 NHỮNG H N CHẠ Ế ỦA ĐỀ C TÀI 59

5.2.1 Những h n ch ạ ế khi đánh giá sự thành cơng c a ICO 59 ủ 5.2.2 Những h n ch khi thạ ế ực hiện dự đốn giá tiền điệ ửn t 60

5.3 ĐỀ XUẤT HƯỚNG PHÁT TRIỂN TƯƠNG LAI 61

KẾT LUẬN 63

Trang 12

iii

TÀI LIỆU THAM KH O 64 ẢTIẾNG ANH 64 TIẾNG VIỆT 68

Trang 13

iv

Hình 2.1 Cấu trúc ma tr n Confusion Matrix 12 ậ Hình 2.2 Cấu trúc c a mủ ạng nơ-ron h i quy (RNN) 13 ồ

Hình 2.3 Hướng di chuyển luồng thơng tin của RNN và feedforward neural 14

Hình 2.4 Cấu trúc m ng LSTM 15 ạ Hình 2.5 Cấu trúc m ng ạ CNN 16

Hình 3.1 Lưu đồ tổng quan các bước thực hiện đề tài 18

Hình 3.2 Tổng h p sợ ố lượng ICO đã thu thập 19

Hình 3.3 Lưu đồ thực hiện đánh giá sự thành cơng của các ICO 20

Hình 3.4 Source code chuyển đổi dữ liệu sang dạng text 22

Hình 3.5 Source code sử d ng xpdf-ụ tools-win-4.03 đọc dữ liệu 22

Hình 3.6 Source code cài đặt tham số cho mơ hình 23

Hình 3.7 Source code xử lý tiền d u trong text-mining 23 ữ liệ Hình 3.8 Source code tạo ma tr n Bag of words 24 ậ Hình 3.9 Source code thiết lập nhĩm d ữ liệu theo TDM 24

Hình 3.10 Source code xếp ch ng d u (Nhĩm thồ ữ liệ ực hiện) 25

Hình 3.11 Source code phân chia dữ u 25 liệ Hình 3.12 Đưa dữ liệu vào thu t tốn KNN 25 ậ Hình 3.13 Source code chuyển d u sang text 26 ữ liệ Hình 3.14 Source code xử lý tiền d u 27 ữ liệ Hình 3.15 Source code xĩa các thì của từ 27

Hình 3.16 Source code phân chia d u 28 ữ liệ Hình 3.17 Xây dựng mơ hình Nạve Bayes 28

Hình 3.18 Quy trình thu thập d u giá tiữ liệ ền điệ ử ằn t b ng cơng c Coin-for-ụ rich 29 Hình 3.19 Sơ đồ chi tiết thu dữ li u b ng Coin-for-ệ ằ rich 29

Hình 3.20 Kéo thời gian để thu dữ liệu lịch sử t ừ REST APIs 30

Hình 3.21 Truy xuất dữ liệu đã thu được 30

Hình 3.22 Xuất dữ liệu đã thu được sang file csv 31

Hình 3.23 20 dịng dữ liệu giá SOL trên sàn binance 32 Hình 3.24 Lưu đồ thiế ết k và xây dựng mơ hình dự đốn giá tiền điện t 33 ử

Trang 14

v

Hình 3.25 Sắp x p và phân loế ại dữ liệu đầu vào 35

Hình 3.26 Source code thực hiện chu n hĩa dẩ ữ liệu 36

Hình 3.27 Source code thực hiện chuy n chi u d u 36 ể ề ữ liệ Hình 3.28 Source code tính tốn các chỉ s hi u su 37 ố ệ ất Hình 3.29 Cấu trúc hoạt động m ng RNN 37 ạ Hình 3.30 Cấu trúc m ng RNN s dạ ử ụng để ự d báo giá tiền điệ ửn t 38

Hình 3.31 Source code mơ hình RNN 38

Hình 3.32 Cấu trúc hoạt động m ng LSTM 38 ạ Hình 3.33 Cấu trúc m ng LSTM s dạ ử ụng để ự d báo giá tiền điệ ửn t 39

Hình 3.34 Source code mơ hình LSTM 40

Hình 3.35 Cấu trúc m ng CNN 40 ạ Hình 3.36 Cấu trúc m ng CNN s dạ ử ụng để ự d báo giá tiền điệ ửn t 41

Hình 3.37 Source code mơ hình CNN 41

Hình 4.1 Ma tr n h n lo n th hi n kậ ỗ ạ ể ệ ết quả ủa thuậ c t tốn KNN 43

Hình 4.2 Ma trận h n lo n th hi n kỗ ạ ể ệ ết quả ủa thuậ c t tốn Nạve Bayes 44 Hình 4.3 Dự đốn giá 3 loại tiền điệ ửn t trong 60 phút cu i 52 ố Hình 4.4 Dự đốn giá 3 loại tiền điệ ửn t trong 20 phút cu i 55 ố

Trang 15

vi

DANH MỤC B NG BI U Ả ỂBảng 4.1 Kết quả phân loại các whitepaper khi sử ụ d ng thuật tốn KNN 43 Bảng 4.2 Kết quả phân loại các whitepaper khi sử ụ d ng thuật tốn Nạve Bayes 44 Bảng 4.3 So sánh các chỉ s hi u suố ệ ất của thuật tốn KNN và Naive Bayes 45 Bảng 4.4 Kết quả so sánh các mơ hình c a 3 loủ ại tiền điệ ửn t 46 Bảng 4.5 Các giá trị tham số c n l a chầ ự ọn để cĩ được mơ hình CNN tối ưu 47 Bảng 4.6 Kết quả ối ưu tham số t mơ hình CN - data ETH 47 N Bảng 4.7 Kết quả ối ưu tham số t mơ hình CNN - data IOTA 48 Bảng 4.8 Kết quả ối ưu tham số t mơ hình CNN data SO 49 –Bảng 4.9 Kết quả ối ưu tham số ủa mơ hình CNN 50 t cBảng 4.10 Kết quả các chỉ số c a mơ hình tủ ối ưu 51 Bảng 4.11 Giá g c và giá d báo c a ETH trong 20 dịng cu 52 ố ự ủ ối Bảng 4.12 Giá g c và giá d báo c a IOTA trong 20 dịng cu 53 ố ự ủ ối Bảng 4.13 Giá g c và giá d báo c a SOL trong 20 dịng cu i 54 ố ự ủ ố

Trang 16

vii

DANH MỤC CÁC T VI T T T Ừ Ế Ắ

ARIMA Autoregressive Integrated Moving Average

Trang 17

viii

TÓM T T ẮBài nghiên c u xây d ng mô hình dứ ự ự đoán sự thành công c a các ICO v i các ủ ớthuật toán KNN và Naive Bayes Sau đó tiếp tục dự đoán giá các coin thành công thông qua các mô hình RNN, LSTM và CNN Mục đích là tìm ra được mô hình d ựđoán có hiệu suất cao, dự đoán giá chuẩn xác và sai số thấp nhất

Dữ liệu text-mining thu th p t coinmarketcap và cryptorank Bậ ừ ằng phương pháp th ủ công, thu được 150 whitepaper Nhóm đã xây dựng mô hình KNN và Naive Bayes Dữ liệu dự đoán giá thu thập b ng Coin-for-ằ rich, thu được 3 b dộ ữ liệu giá của ETH, IOTA và SOL, m i b có 44640 dòng Nhóm xây d ng mô hình LSTM, ỗ ộ ựRNN, CNN và s dử ụng GridSearchCV để điều ch nh tham s phù h p v i mô hình ỉ ố ợ ớKết qu text-mining cho th y KNN là mô hình có hi u su t cao nh t v i 96,89% ả ấ ệ ấ ấ ớ

Về ph n d ầ ự đoán giá, CNN là mô hình phù h p nhợ ất, dự đoán chính xác 73,684% về

sự tăng - gi m c a giá ETH, 84,211% v i IOTA và 63,168% v i SOL ả ủ ớ ớ

Bài nghiên c u ch phân lo i s thành công c a ICO d a vào ROI, b i ROI ứ ỉ ạ ự ủ ự ởđược các nhà đầu tư quan tâm, ảnh hưởng đến quyết định đầu tư Thực tế còn nhiều yếu t ố ảnh hưởng đến vấn đề này V ph n d ề ầ ự đoán giá, thời gian thu th p d ậ ữ liệu còn ngắn và số l n hu n luy n mô hình ít nên ầ ấ ệ ảnh hưởng đến k t qu dế ả ự đoán

Dự đoán sự thành công c a ICO v n còn m i m ủ ẫ ớ ẻ và chưa có nhiều nghiên c u ứ

Dự đoán giá tiền điện tử hiện nay nhận được nhi u s quan tâm K t qu cề ự ế ả ủa đề tài nghiên c u này s là ngu n tham kh o h u ích cho nh ng nghiên c u ti p theo ứ ẽ ồ ả ữ ữ ứ ế

Từ khóa: sách tr ng, dắ ự đoán, tiền điệ ử, khai thác văn bản t n, máy học

Trang 18

ix

ABSTRACT This paper builds a model to predict the success of ICOs with KNN and Naive Bayes algorithms Then continue to predict the price of successful ICOs through RNN, LSTM, and CNN models The goal is to find a predictive model with high performance, accurate price prediction, and the lowest error

Text-mining data collected from coinmarketcap and cryptorank By the manual method, 150 whitepapers were obtained The team built KNN and Naive Bayes models Price prediction data collected with Coin-for-rich obtained 3 sets of price data of ETH, IOTA, and SOL, each with 44640 lines The team builds LSTM, RNN, and CNN models and uses GridSearchCV to adjust parameters to fit the model Text-mining results show that KNN is the model with the highest performance with 96.97% As for price prediction, CNN is the most suitable model, correctly predicting 73.684% for ETH price increase - decrease, 84.211% for IOTA, and 63.168% for SOL

The study only classifies the success of ICOs based on ROI, because ROI is of interest to investors, affecting investment decisions Many factors influence this issue As for price prediction, the time to collect data is short and the number of times

to train model is small, which affects the prediction results

Predicting the success of ICOs is still quite new and not much research is available Cryptocurrency price predictions are getting a lot of attention nowadays The results of this study will be a useful reference for future studies

Keywords: whitepaper, prediction, cryptocurrency, text-mining, machine learning

Trang 19

Feng và c ng sộ ự (2019) đã cho biế ằt r ng, ICO là m t ngu n tài li u vô cùng ộ ồ ệquan trọng đối v i các nhà qu n lý trên kh p th gi i, chúng mang l i r t nhi u nguớ ả ắ ế ớ ạ ấ ề ồn thông tin quan tr ng và ọ ảnh hưởng đến quyết định đầu tư của các nhà đầu tư bởi vì chỉ có chúng m i mang l i nh ng ngu n thông tin chính th ng v các coin s p ra m ớ ạ ữ ồ ố ề ắ ắt.Vậy đánh giá được độ thành công của một ICO có t m quan trầ ọng như thế nào? Cetingok và Deola (2018) đã thực hi n m t cu c kh o sát trong sệ ộ ộ ả ố 50 nhà đầu tư và kết quả chỉ ra r ng nằ ội dung của sách tr ng có ắ ảnh hưởng nhi u nhề ất đến quyết định đầu tư Đánh giá được ICO nào thành công sẽ là một bước đệm lớn trong vấn đề dự đoán giá, lợi nhuận và những biến đổ ủa chúng, giúp cho nhà đầu tư có nhữi c ng cái nhìn khách quan hơn Ngày nay, dự báo tiền điện tử thường được coi là một trong những vấn đề ự đoán chuỗ d i thời gian thách th c nh t do sứ ấ ố lượng lớn các y u t ế ốkhông th ể đoán trước liên quan và sự biến động đáng kể ủ c a giá tiền điệ ử ẫn đến t , d n

sự ph ụ thuộc phức tạp theo thời gian

Các mô hình d ự báo giá đều d a trên nh ng k ự ữ ỹ thuật máy học sâu nâng cao như các l p b nh ng n h n (LSTM), ph c h p và dài h n Các l p phù hớ ộ ớ ắ ạ ứ ợ ạ ớ ợp được s ửdụng để lọc nhiễu trong d u chu i th i gian ph c tữ liệ ỗ ờ ứ ạp cũng như trích xuất các tính năng có giá trị mới trong khi các lớp LSTM được sử dụng để nắm bắt hiệu quả các mẫu trình t ự cũng như các phụ thuộc dài hạn và ng n hắ ạn

Dựa trên các công trình trước đó, mục tiêu của nghiên cứu này gồm hai phần: Thứ nhất, đánh giá thành công của ICO v i sách tr ng (phân lo i theo ROI) d a trên ớ ắ ạ ựthuật toán text-mining và th hai, dứ ự đoán giá cho các ICO thành công

1.2 TÍNH CẤP THIẾT CỦA ĐỀ TÀI

Khai thác văn bản đã trở thành một lĩnh vực nghiên c u thú vị vì nó giúp khám ứphá thông tin có giá tr t ị ừ các văn bản phi c u trúc Ngoài ra, phân lo i tài li u là mấ ạ ệ ột

Trang 20

2

mối quan tâm tr ng tâm trong các nghiên cọ ứu khai thác văn bản, b i vì sở ố lượng tài liệu trong m i ngành ngành nghỗ ề đều đạ ố lượt s ng r t lấ ớn và có tính liên đớ ớ ất i v i rnhiều ngành ngh ề khác, do đó việc sẽ gây ra ra r t nhiấ ều khó khăn nếu th c hi n các ự ệquy trình phân lo i b ng tay (Ting và nnk., 2017) ạ ằ Việc xác định các phương pháp, thuật toán và kỹ thuật x lý chính xác là r t quan trử ấ ọng để trích xu t thông tin b ng ấ ằcách s dử ụng khai thác văn bản (Dang & Ahmad, 2014) Và trong lĩnh vực tài chính, khai thác văn bản đã được áp dụng trong một số hoạt động rộng lớn, chẳng hạn như

dự đoán tỷ giá hối đoái, dựđoán thị trường ch ng khoán, ng dứ ứ ụng qu n lý quan h ả ệkhách hàng và an ninh m ng (Kumar & Ravi, 2016) Các thu t toán r t khác nhau ạ ậ ấgiữa các máy vectơ hỗ trợ, n-gram, bản đồ tự tổ chức, LDA, v.v Bộ dữ liệu chủ yếu tập trung vào các bài báo, hồ sơ công ty và tweet

Dựa trên nh ng k t qu nghiên c u trên thì vi c áp d ng vữ ế ả ứ ệ ụ ấn đề khai thác văn bản vào nhiều lĩnh vực s có thẽ ể đưa ra được nh ng k t qu chính xác và ti t kiữ ế ả ế ệm được nhiều th i gian Chính vì vậy, việc ứng d ng viờ ụ ệc khai thác văn bản vào việc

dự đoán thành công c a m t ICO là mủ ộ ột điều r t hấ ữu ích Do đó, sử d ng text-mining ụvào việc đánh giá ICO là một lĩnh vực nghiên cứu đầy tiềm năng Đặc bi t, sau khi ệ

dự đoán được d án ICO nào có kh ự ả năng thành công, việc tiến hành d ự đoán giá cho chúng sẽ mang l i rạ ất nhi u l i ích cho nhề ợ ững nhà đầu tư sau này

Trong nhi u nghiên cề ứu trước đây về d báo s biự ự ến động của tiền điệ ử ằn t b ng

mô hình h i quy, dồ ựa trên giá trước đó mang lại hi u su t không cao b i vi c d ệ ấ ở ệ ự đoán này ch y u d a trên sai sủ ế ự ố trung bình bình phương (RMSE) ho c sai sặ ố phần trăm tuyệt đối trung bình (MAPE) giữa giá trị dự đoán và giá trị thực trong 1 mô hình nào

đó Những giá tr c a RMSE thị ủ ấp chưa đủ nói lên vi c d ệ ự đoán mô hình thực s mang ự

lại hi u quệ ả Do đó, việ ực l a ch n mô hình nghiên c u sọ ứ ẽ ả h hưởn ng nhiều đến tính chính xác c a kủ ết quả cuối cùng

RNN (Elman, 1990) là mô hình máy h c có khọ ả năng xử lý đầu vào v i bớ ất kỳ

độ dài nào, khi sử dụng mô hình này không c n lo l ng v kích c mô hình sầ ắ ề ỡ ẽ tăng lên theo kích cỡ đầu vào Và đặc bi t, trong ệ suốt quá trình tính toán thì tr ng s s ọ ố ẽđược chia sẻ Bên cạnh đó, mô hình RNN còn được sử dụng nhiều lĩnh vực xử lý ởngôn ng t nhiên M c dù, mô hình RNN có kh ữ ự ặ ả năng ghi nhớ những thông tin trước

đó, nhưng nó không thể nhớ được những bước ở xa do b mị ất mát đạo hàm Chính vì

Trang 21

3

vậy, m t mơ hình c i tiộ ả ến để kh c phắ ục được tình trạng này ra đời, cĩ tên là LSTM (Hochreiter & Schmidhuber, 1997) Mơ hình này được thừa hưởng tồn b t mơ ộ ừhình RNN nhưng nĩ sẽ tích hợp thêm các cổng tính tốn ở lớp ẩn để quyết định giữ lại các thơng tin nào

Theo một nghiên c u gứ ần đây cho thấy r ng RNN và LSTM là hai mơ hình hoằ ạt động tốt hơn những mơ hình chu i th i gian d ỗ ờ ự đốn tiền điện t khác (Dutta và nnk.ử , 2020) Theo m t nghiên c u c a Hijazi và nnk (2015) v s d ng CNN trong viộ ứ ủ ề ử ụ ệc nhận d ng hình nh, h ạ ả ọ đã khẳng định r ng CNN là thuằ ật tốn được sử ụ d ng r ng rãi ộ

và mang l i nhi u l i th trong vi c x lý dạ ề ợ ế ệ ử ữ liệu hình nh so v i nh ng thu t tốn ả ớ ữ ậkhác

Theo như nhiều nghiên cứu trước đây cho thấy rằng CNN, LSTM và RNN là những mơ hình mang l i nhi u lạ ề ợi th trong vi c dế ệ ự đốn tiền điệ ửn t so với nh ng ữ

mơ hình Machine Learning khác (Ji và nnk., (2019); Jiang, 2020; Li & Dai, 2020) Thơng qua nhi u nghiên cề ứu, cũng như dựa vào những ưu điểm phù h p cho vi c d ợ ệ ựđốn tiền ảo, chúng tơi chọn ra 3 mơ hình để thực hiện quá trình dự đốn xu hướng biến động của tiền điện tử là RNN, CNN và LSTM

1.3 CÁC CƠNG TRÌNH NGHIÊN C U CĨ LIÊN QUAN Ứ

Hiện nay, cĩ r t nhi u nghiên c u v vi c s d ng text-ấ ề ứ ề ệ ử ụ mining cũng như dựđốn sự ến độ bi ng giá của tiền điện tử ở rất nhiều quốc gia Chúng tơi đã tham khảo các nghiên c u v d báo tiứ ề ự ền điện tử (cụ thể là Bitcoin) và m t s nghiên c u v ộ ố ứ ề mơ hình khai thác văn bản để cĩ th ể hồn thành đề tài m t cách t t nh t Các báo cáo cáo ộ ố ấtrước đây gồm:

• Bijalwan và nnk (2014) đã thực hiện nghiên c u vứ ề việc phân loại các bài báo d a trên vi c tìm ki m t khĩa cự ệ ế ừ ủa người dùng bằng 3 mơ hình khai thác văn bản là: KNN, Nạve Bayes và Term Graph K t qu cho thế ả ấy KNN cĩ độ chính xác tối đa

so v i Naive Bayes và Term-Graph H n ch ớ ạ ế đối với KNN là độ ph c t p v ứ ạ ề thời gian của nĩ cao

• Ji và nnk (2019) đã thực hiện một nghiên cứu dự đốn giá của Bitcoin dựa trên nh ng mơ hình máy hữ ọc khác nhau như DNN, LSTM, RNN và Resnets đã đưa

ra k t lu n r ng khế ậ ằ ả năng dự đốn của mơ hình LSTM tốt hơn các mơ hình dự đốn

Trang 22

▪ Li và Da (2020) đã thựi c hi n m t nghiên c u v dệ ộ ứ ề ự đoán giá dựa vào các

mô hình thuật toán Machine Learning để có th tìm ra mô hình nào trong s nh ng ể ố ữ

mô hình nghiên c u mang l i hi u su t dứ ạ ệ ấ ự đoán tốt nh t K t qu cho th y m ng n -ấ ế ả ấ ạ ơron lan truyền ngược BP (Back Propagation Neural Network) có hi u suệ ất kém hơn khi đem nó đi so sánh với CNN và LSTM Trong khi CNN có nhiều lợi thế hơn vềchỉ số giá tr d ị ự đoán mà LSTM lại có các ch s ỉ ố theo hướng dự đoán tốt hơn Và khi tạo ra h n hỗ ợp m ng CNN-ạ LSTM thì đưa ra chỉ ố ố s t t nh t cho c hai giá tr d ấ ả ị ự đoán

và hướng dự đoán

▪ Jiang (2020) đã dự đoán giá của Bitcoin bằng 4 phương pháp máy học là LSTM, GRU, MLP và RMM K t qu cho th y r ng cế ả ấ ằ ả 4 mô hình đều có hi u suệ ất gần nhau, vì v y các mô hình khác nhau có thậ ể được ưu tiên trong các tình hu ng ốkhác nhau LSTM và GRU có hi u suệ ất t t nh t trên tố ấ ập dữ liệu th nghi m g c Mô ử ệ ốhình MLP yêu cầu ít năng lực tính toán hơn trong khi nó có hiệu su t thấ ấp hơn một chút so với mô hình RNN

▪ Munim và nnk (2019) đã so sánh hai mô hình là trung bình động tích hợp tự hồi quy (ARIMA) và mô hình tự động hồi quy mạng nơ ron (NNAR) Kết quả là mô hình ARIMA hoạt động tốt hơn NNAR trong việc dự đoán giá Bitcoin

▪ Dutta và nnk (2020) đã dự đoán giá Bitcoin bằng phương pháp tiếp cận đơn

vị nh k thông qua mô hình RNN, GRU và LSTM Kđị ỳ ết quả cho th y r ng mô hình ấ ằkết h p gi a RNN-GRU hoợ ữ ạt động tốt hơn LSTM và GRU cũng có xu hướng hoạt động tốt hơn LSTM trên dữ liệu đào tạo ít hơn

▪ Livieris và nkk (2020) đã đề xu t m t mô hình m ng thấ ộ ạ ần kinh sâu đa đầu vào MICDL để dự đoán giá và chuyển động của tiền điệ ửn t K t qu c a nghiên c u ế ả ủ ứcho th y rấ ằng mô hình đề xu t trên dấ ự đoán giá tin cậy hơn so với những mô hình máy h c truy n th ng, ngoài ra mô hình này có khọ ề ố ả năng khai thác hiệu qu dả ữ liệu

Trang 23

5

tiền điện tử hỗn hợp với chi phí thấp hơn

▪ Phaladisailoed và Numnonda (2018) đã so sánh hai mô hình GRU và mô hình hồi quy Huber v tính hi u quề ệ ả và độ chính xác cao để ự đoán giá Bitcoin Kế d t qu ảcho th y r ng Gấ ằ RU có độ chính xác hơn, tuy nhiên sẽ mất nhiều thời gian hơn so với Huber

▪ Chuanjie và nnk (2019) đã thực hi n m t nghiên c u v vi c phân lo i các ệ ộ ứ ề ệ ạbáo cáo chính th c có th ứ ể được th c hi n thông qua mô hình hóa chự ệ ủ đề ới mô hình vphân b Dirichlet tiố ềm ẩn (LDA) K t qu c a mô hình phân lo i tế ả ủ ạ ừ LDA đã cung cấp rất nhiều thông tin h u ích trong vữ ấn đề ự đoán ICO thành công d

▪ Cetingok và Deola (2018) đã đưa ra một mô hình khai thác văn bản b ng ằthuật toán KNN trên sách tr ng nh m tắ ằ ự động hóa quyết định đầ tư vào dựu án Kết quả cho thấy r ng mô hình không mằ ắc bất kỳ sai l m nào trong viầ ệc dự đoán 10 ICO thành công và 7 ICO không thành công

▪ Derbentsev và nnk (2020) đã thực hi n m t bài nghiên cệ ộ ứu so sánh các đặc tính tiên lượng cho nhi m v d ệ ụ ự đoán ngắn h n v t giá hạ ề ỷ ối đoái tiền điện t c a mử ủ ột

số mô hình máy h c: thu t toán BART, M ng th n kinh nhân t o (ANN) và cây quyọ ậ ạ ầ ạ ết định k t h p ế ợ — RF K t qu c a nghiên c u này cho th y r ng các thu t toán Machine ế ả ủ ứ ấ ằ ậLearning (cụ thể là ANN, C&RT và các t h p c a chúổ ợ ủ ng) đưa ra kết qu tả ốt hơn so với các thuộc tính th ng kê chuố ỗi thời gian so với các phương pháp thống kê và kinh

tế lượng c ổ điển

▪ Một nghiên c u so sánh gi a RNN và tứ ữ ự động hồi quy vectơ (VAR) được thực hi n b i El-ệ ở Abdelouarti Alouaret (2017) để ự đoán giá Bitcoin K t qu c a h d ế ả ủ ọcho thấy r ng các mô hình RNN có hi u suằ ệ ất tốt hơn so với phương pháp VAR

▪ Li và nnk (2020) đã thực hi n nghiên c u dệ ứ ự đoán biến động giá Bitcoin bằng vi c s dệ ử ụng LSTM và một m ng nhúng K t qu cho th y r ng mô hình kạ ế ả ấ ằ ết hợp LSTM và mạng nhúng đạt hiệu suất vượt trội so với mô hình LSTM căn bản

▪ Mudassir và nnk (2020) đã thực hi n m t bài nghiên c u các d báo giá ệ ộ ứ ựBitcoin từ ngắn hạn đến trung h n b ng cách s d ng các mô hình máy h c, bao gạ ằ ử ụ ọ ồm ANN, SANN, SVM và LSTM K t qu cho th y rế ả ấ ằng các mô hình đều đạt yêu cầu

và hi u su t tệ ấ ốt Trong đó LSTM đã cho thấy hi u su t t ng th t t nh t Tuy nhiên ệ ấ ổ ể ố ấđối với những dự báo hàng ngày thì MAPE đạt hiệu suất thấp nhất là 1,44%, trong

Trang 24

6

khi nĩ thay đổi từ 2,88% đến 4,10% cho thời hạn từ bảy đến chín mươi ngày

▪ Greaves và Au (2015) đã thu thập các giao dịch Bitcoin để ự đốn giá dBitcoin Họ đã sử ụ d ng b n mơ hình phân lo i là: Baseline, h i quy logistic, SVM ố ạ ồ

và mạng nơ ron Kết quả thu được cho thấy các mơ hình cĩ độ chính xác gần như tương đương nhau, cao nhất là mơ hình mạng nơ-ron với 55,1%, mơ hình hồi quy logistic là 54,3%, SVM là 53,7% và 53,4% đối v i mơ hình Baseline ớ

• Dai và c ng sộ ự (2007) đã thực hi n m t nghiên c u v phân loệ ộ ứ ề ại văn bản thơng qua mơ hình Nạve Bayes và họ đã đưa ra k t lu n v hi u qu phân loế ậ ề ệ ả ại văn bản của thuật tốn Nạve Bayes đạt hiệu su t sao ấ

• Jadhav và Channe (2014) đã thực hiện m t nghiên cộ ứu để đánh giá hiệu suất phân loại văn bản c a các thu t tốn KNN, Naive Bayes, Decision Tree và k t qu ủ ậ ế ảcho th y r ng mơ hình KNN mang l i hi u ầ ằ ạ ệ suất phán đốn tốt nh t so v i hai thuấ ớ ật tốn cịn l i, Naive Bayes mang l i k t qu ạ ạ ế ả phán đốn với thời gian hu n luy n nhanh ấ ệnhất

1.4 NHỮNG ĐIỂM MỚI CỦA ĐỀ TÀI

Thơng qua nh ng nghiên cữ ứu trước đây cĩ thể thấy rằng, đã cĩ nhiều nghiên cứu thành cơng nh áp d ng vờ ụ ấn đề khai thác văn bản cũng như dự đốn giá tiền điện

tử Vi c chúng tơi ti p tệ ế ục sử ụng text-mining vào việc đánh giá white paper là lĩnh dvực nghiên cứu đầy tiềm năng, vừa gĩp ph n phát tri n viầ ể ệc ứng dụng khai thác văn bản vào việc đánh giá các ICO Điểm m i là chúng tơi k t h p viớ ế ợ ệc đánh giá sự thành cơng c ng thêm v i vi c d ộ ớ ệ ự đốn giá cho các ICO Điều này s mang l i r t nhi u lẽ ạ ấ ề ợi ích và s tham kh o cho nhự ả ững nhà đầu tư Tuy đề tài cịn hạn chế về nhiều mặt (sẽ được trình bày cụ thể ở chương 5), tuy nhiên cũng cĩ thể xem là tài liệu để các nhà nghiên c u cĩ chuyên mơn phát tri n thêm v ứ ể ề sau

Theo chúng tơi tìm hiểu và nhận định nhi u nghiên cở ề ứu trước đây, dữ liệu d ựbáo giá tiền điệ ử đượn t c thu th p trên nh ng trang web là khá h n chậ ữ ạ ế, khơng đáp ứng được độ chính xác của dự án Tại nghiên cứu của tác giả Phạm Hồng Anh (2021), tác giả đã thực hiện dự báo giá của Bitcoin bằng cách thu thập dữ liệu giá Bitcoin theo t ng ngày b ng Coinmarket Tuy k t qu thu v khá tích cừ ằ ế ả ề ực, nhưng các sai s c a mơ hình t t nh t cịn khá cao Nh n thố ủ ố ấ ậ ấy điều đĩ, ở bài nghiên c u này, ứ

Trang 25

7

chúng tôi đã thu thập dữ liệu bằng công cụ Coin-for-rich của tác giả Trần Việt Anh

và Vương Hoài Nam Công cụ này giúp thu thập dữ liệu thực tế ngay t i thạ ời điểm thu cũng như thu dữ liệu lịch sử của các loại tiền điện tử từ REST APIs trên sàn Binance, qua các bi n s : giá m c a, giá cao, giá thế ố ở ử ấp, giá đóng cửa, số lượng giao dịch và giá tr v n hóa th ị ố ị trường Các bi n s ế ố này được thu v v i s biề ớ ự ến động chênh lệch theo t ng phút T t cừ ấ ả đều có sự tác động đố ới các giao dịch và hi v ầu như đều xuất hiện trên các sàn giao dịch tiền điện tử Việc thu thập dữ liệ ự động hóa thông u t qua API s giúp d ẽ ữ liệu thu được sạch hơn, giúp người dùng có th d dàng xây d ng ể ễ ự

ứng dụng phân tích d liệu của riêng mình Với công cụ này, người dùng có thể tùy ữchỉnh th i gian thu thập dữ liệu và ng d ng theo ý mình, ch y mô hình ngay trên ờ ứ ụ ạdatabase đã được kéo Nhờ đó, chúng tôi có thể đưa ra những dự báo về giá thông qua các mô hình máy h c m t cách c ọ ộ ụ thể và chi tiết hơn

1.5 MỤC TIÊU NGHIÊN C U Ứ

Với bài nghiên c u này, nhóm chúng tôi nhứ ận định c n ph i thầ ả ực hiện được các mục tiêu cụ thể sau:

Đánh giá sự thành công của một ICO thông qua thuật toán text-mining: Để

có th ể đánh giá và phân loại được sự thành công c a m t ICO b t kủ ộ ấ ỳ thì c n ph i xác ầ ảđịnh được yếu t nào s quyố ẽ ết định đến kh ả năng thành công Đố ới v i các d ự án kinh

tế nói chung và ICO nói riêng thì l i nhu n s là yợ ậ ẽ ếu t ố ảnh hưởng lớn đến quyết định rót v n cố ủa các nhà đầu tư, từ đó sẽ quyết định khả năng thành công hay không của một d ự án ICO Do đó trước khi d ự đoán khả năng thành công của ICO thì ta ph i thu ảthập và phân loại được ROI c a ICO nào thành công và không thành công qua mủ ức

độ % của ROI

Chọn lọc được những ICO có khả năng thành công trong tương lai: Để có thể chọ ọc được ICO thành công trong tương lai thì phả ựa vào các ICO đã thànn l i d h công trong quá kh , d a vào trung bình %ROI cứ ự ủa các ICO đã nổi tiếng để có th ểlàm n n t ng dề ả ự đoán được ICO thành công trong tương lai thông %ROI và chiều hướng tăng hay giảm của các ICO này

Phân tích và d báo giá c a nh ng ICO thành công thông qua vi c tri n khai ự ủ ữ ệ ể

và hu n luy n các mô hình máy h c CNN, RNN và LSTM: ấ ệ ọ Để có th phân tích và ể

dự báo, c n ph i thu thầ ả ập được bộ dữ liệu giá của các lo i tiạ ền điệ ừ ừ đó huấn n t , t

Trang 26

8

luyện chúng b ng các mô hình máy h c Sau quá trình hu n luy n, thằ ọ ấ ệ ực hiện so sánh các chỉ s hiố ệu suất nhằm để lựa chọn mô hình d báo tự ốt nhất nhất, đồng thờ ối ưu i tcác tham s cố ủa mô hình để mô hình cu i cùng là chu n nh t, dố ẩ ấ ự báo được k t qu ế ảchính xác nhất

So sánh biến động so v i giá th c tớ ự ế: T k t qu d báo giá, th c hi n so sánh ừ ế ả ự ự ệthủ công để kiểm tra được s biự ến động và chênh l ch so v i th c t (so sánh s chênh ệ ớ ự ế ựlệch của giá d báo v i s chênh l ch c a giá th c t t bự ớ ự ệ ủ ự ế ừ ộ dữ liệu đã thu thậ ừp t trước) Từ đó đưa ra được phương án phù hợp và đề xuất hướng phát triển tốt hơn cho đề tài

Trả lời được các câu h i nghiên cỏ ứu: Cùng v i các m c tiêu trên, trong bài ớ ụnghiên cứu này, chúng tôi cũng sẽ thông qua việc xây d ng các thu t toán và thự ậ ực hiện chúng mà lần lượt giải đáp cho những câu hỏi dưới đây:

- Làm th ế nào để đưa ra được đánh giá được khả năng thành công của ICO bất

kỳ thông qua ch s ROI và whitepaper c a các ICO? ỉ ố ủ

- Trong quá trình thu thập d u thì n n t ng nào cho cho phép vi c thu thữ liệ ề ả ệ ập các thông tin về ROI cũng như các whitepaper ICO?

- Việc đánh giá sự thành công c a whitepaper sủ ẽ được th c hi n trên mô hình ự ệmáy h c nào? ọ

- Việc dự đoán giá dựa vào các dữ liệu thu th p b ng API s mang l i k t qu ậ ằ ẽ ạ ế ảnhư thế nào so với các data có sẵn từ các trang web tiền điện tử uy tín như coin market?

- Mô hình thu t toán dậ ự đoán giá Machine Learning nào s mang l i hi u qu ẽ ạ ệ ảtốt nh t, dấ ự đoán giá chính xác nhất cho các ICO đã được đánh giá là thành công trước đó?

1.6 ĐỐI TƯ NG, PHỢ ẠM VI, PHƯƠNG PHÁP NGHIÊN CỨU

Đối tượng, phạm vi nghiên cứu: Đồ án tập trung vào chỉ số ROI của các loại

tiền o trên sàn Binance v i nh ng dả ớ ữ ữ ệu v s bili ề ự ến động giá được thu th p b ng ậ ằcách kéo d ữ liệu l ch s t REST APIs cùng vị ử ừ ới 150 whitepaper được thu th p t nậ ừ ền tảng coinmarket

Phương pháp nghiên cứu: Thông qua vi c thu th p d ệ ậ ữ liệu sơ cấp và th c p cứ ấ ủa nhiều lo i tiạ ền điệ ửn t ph bi n, k t hổ ế ế ợp với phân tích và x lý sử ố liệu để đưa ra kết

Trang 27

Chương 1 Tổng quan đề tài

Chương 2 Cơ sở lý thuyết

Chương 3 Phương pháp thực hiện

Chương 4 Kết quả thực hiện

Chương 5 Kết luận đề tài - đề xuất hướng phát triển

Trang 28

mã hóa Trong mỗi đợt ICO, các nhóm d án s t o ra các ự ẽ ạ token trên blockchain đểbán cho những người mua trước khi các lo i tiạ ền mã hóa này được phát hành để ọ h

có th s dể ử ụng trước ho c s dặ ử ụng trong tương lai, bên cạnh đó các dự án này s ẽ được rót vốn để phát triển tốt hơn

ICO n ra ph biổ ố ến vào năm 2014 và phương pháp này được nhiều người biết đến khi sử dụng để huy động vốn cho đồng tiền Ethereum và gây được nhiều tiếng vang đến hi n nay T ệ ừ đó rất nhi u d ề ự án blockchain đã sử dụng phương pháp này để huy động vốn

2.2 THUẬT TOÁN KNN (K-NEAREST NEIGHBORS)

KNN là m t k thu t hộ ỹ ậ ọc có giám sát, thường được s dử ụng để phân lo i quan ạsát m i thông qua vi c tìm kiớ ệ ếm các điểm tương đồng gi a quan sát m i v i nh ng ữ ớ ớ ữ

dữ liệu sẵn có Tuy mô hình này đơn giản nhưng độ chính xác của nó cũng khá ổn định vì nó không có tham số như nhiều mô hình máy học khác Mô hình sẽ không đưa ra bất cứ giả định nào trong việc phân bổ dữ liệu và mô hình này được sử dụng trực tiếp để phục vụ phân loại đa lớp

Zhang và nnk (2018) cho rằng KNN là phương pháp phân loại trong khai thác

dữ liệu và thống kê các điểm gần nhất với quy trình thực hiện đơn giản và hiệu suất phân loại đáng kể M c dù thu t toán KNN s t n nhi u thặ ậ ẽ ố ề ời gian cho các bước xử lý

tiền dữ ệu nhưng thuật toán này mang lli ại độ chính xác cao hơn các thuật toán khác (Bijalwan và nnk., 2014)

Thuật toán KNN sẽ đưa ra giả định r ng nh ng th có tính ch t gi ng nhau s ằ ữ ứ ấ ố ẽnằm ở v trí gị ần nhau Sau đó KNN sẽ phán đoán mức độ ống nhau c gi ủa 2 điểm d ữliệu d a vào kho ng cách gi a gi a chúng thông qua vi c xây d ng công th c toán ự ả ữ ữ ệ ự ứhọc

Ưu điểm của mô hình này chính là quá trình huấn luyện đơn giản và không tốn

Trang 29

dự đoán tập trung ở khâu test dữ liệu Do v y, vi c tính kho ng cách cậ ệ ả ủa từng điểm

dữ liệu của training set s tẽ ốn nhi u th i gian Tham sề ờ ố K càng l n thì mớ ức độ phức tạp c a mô hình s càng lủ ẽ ớn N u viế ệc lưu trữ ữ liệ d u n m toàn b trong b nhằ ộ ộ ớ s ẽảnh hưởng đến hiệu suất của mô hình

2.3 THUẬT TOÁN NAIVE BAYES

Theo Rish (2001) Naive Bayes còn được gọi là mô hình phân l p, có thớ ể đơn giản hóa vi c hu n luy n mô hình mệ ấ ệ ột cách đáng kể ằ b ng vi c giệ ả định các bi n là ếđộc lập Đây là một mô hình máy học dùng để phân loại các mẫu dựa vào các đặc tính đã được xác định trước đó McCallum và Nigam (1998) đã khẳng định rằng mô hình Naive Bayes là mô hình phân loại đơn giản, b i trong quá trình phân loở ại đều giả định r ng t t c các thu c tính c a các biằ ấ ả ộ ủ ến độc l p v i nhau trong các l p d ậ ớ ớ ữ liệu Theo Zhang và Gao (2011), Naive Bayes được ứng dụng nhiều trong lĩnh vực phân loại văn bản nhờ vào đặc trưng tính đượ ầc t n s xu t hi n c a m t t trong mố ấ ệ ủ ộ ừ ột văn bản cụ thể, dựa trên các điều ki n xác su t cệ ấ ủa các đối tượng c a thuủ ộc tính được chọn bằng các phương pháp lựa chọn đối tư ng ợ

Mô hình này được xây dựng dựa trên nguyên lý Bayes trong xác suất thống kê (Efron, 2013).:

Theo công thức trên, người ta áp dụng định lý Bayes để tính toán xác su t s ấ ựkiện A xảy ra khi đã biế ự ệt s ki n B x y ra, kí hi u là ả ệ P(A|B) Trong đó P(A) và P(B) lần lượt là xác suất xảy ra của 2 sự kiện A và B

Mô hình này có ưu điểm là khá đơn giản và d s d ng, v i kh ễ ử ụ ớ ả năng đoán nhãn của dữ liệu test đạt ở mức cao và có độ chính xác cao Ngoài ra, Naive Bayes cũng đưa ra giả định các feature của dữ liệu mang tính độc l p v i nhau, nh ậ ớ ờ đó thuật toán chạy r t nhanh so v i các thu t toán phân loấ ớ ậ ại văn bản khác Tuy nhiên, trong quá trình test, mặc dù Naive Bayes đưa ra các dự đoán chính xác, nhưng khi chạy thuật

Trang 30

12

toán v i dớ ữ liệu training thì độ chính xác c a nó còn khá h n ch so v i nhi u thuủ ạ ế ớ ề ật toán khác Ngoài ra thì trong th c t thì các bi n c a d ự ế ế ủ ữ liệu không th ể hoàn toàn độc lập với nhau

2.4 CONFUSION MATRIX

Confusion Matrix được gọi là ma trận nhầm lẫn hay ma tr n lậ ỗi Krstinić và nnk (2020) đã nhận định rằng ma tr n nh m l n là m t b n ghi chi tiậ ầ ẫ ộ ả ết đo lường hiệu suất ph c a quá trình phân loổ ủ ại văn bản bi n nhế ất và được s d ng ph bi n cho ử ụ ổ ếnhiều mô hình máy học Luque và nnk (2019) đã đưa ra kết lu n r ng s d ng ma ậ ằ ử ụtrận l i không ch ỗ ỉ để đánh giá hiệu su t k t cùng mà các thu t toán mang l i mà ngoài ấ ế ậ ạ

ra còn d a vào nh ng ch s trong ma trự ữ ỉ ố ận để ối ưu mô hình bằ t ng việc điều chỉnh các tham s c a thu t toán Ma tr n l i hi n th d ng b c c bố ủ ậ ậ ỗ ể ị ở ạ ố ụ ảng để giúp hình dung hiệu su t c a m t mô hình thu t toán c ấ ủ ộ ậ ụ thể và rõ ràng nh t C ấ ụ thể, v i m i l p phân ớ ỗ ớloại, m t confusion matrix g m có 4 ch s :: ộ ồ ỉ ố

Hình 2.1 C u trúc ma tr n Confusion Matrix (ấ ậ Luque và nnk, 2019)Trong đó, các ch sỉ ố quan trọng bao g m: ồ

TP (True Positive): Số lượng điểm c a l p ủ ớ positive được phân loại đúng là positive

TN (True Negative): Số lượng điểm c a l p ủ ớ negative được phân loại đúng là negative

FP (False Positive): Số lượng điểm c a l p ủ ớ negative b phân lo i sai thành ị ạpositive

FN (False Negative): Số lượng điểm c a l p ủ ớ positive b phân lo i sai thành ị ạnegative

Từ 4 ch s dỉ ố ự đoán trên, người ta s dử ụng để đánh giá độ tin c y c a mô hình ậ ủ

Trang 31

2.5 MÔ HÌNH RNN (RECURRENT NEURAL NETWORK)

RNN là m t mô hình ngôn ng và tộ ữ ự động sinh văn bản, nó có th cho bi t xác ể ếsuất c a m t t d a vào kh ủ ộ ừ ự ả năng nhớ các thông tin được tính toán trước đó RNN là

mô hình khá ph biổ ến và được sử ụ d ng nhiều trong lĩnh vực x lý ngôn ng t nhiên ử ữ ựhay nh n d ng gi ng nói ậ ạ ọ

Hình 2.2 Cấu trúc c a mủ ạng nơ-ron h quy (RNN) (Peng và nnk., 2020) ồi RNN có cách th c hoứ ạt động hoàn toàn khác so v i mớ ạng Neuron thông thường (Feedforward Neural Network) Thông tin c a mủ ạng Neuron thông thường truyền theo một hướng th ng cẳ ố định t lừ ớp đầu vào sau đó qua lớ ẩp n và cu i cùng là l p ố ớđầu ra Do đó luồng thông tin ch truyỉ ền theo một chiều và không có chiều ngượ ại c l

Vì th Feedforward Neural Network không có bế ộ nhớ cho lớp đầu vào, nó ch nh ỉ ớđược nh ng d ữ ữ liệu trong quá kh và không có quá trình hu n luy n Nứ ấ ệ gượ ạc l i, RNN lại có luồng thông tin được di chuy n theo mể ột vòng l p l i, liên t c n i ti p nhau ặ ạ ụ ố ếtheo thời gian Do đó khi RNN đưa ra dự đoán của mình thì nó s xem l i nh ng d ẽ ạ ữ ữliệu nó đã được nhận trước đó dựa trên bộ nhớ

Trang 32

14

Hình 2.3 Hướng di chuyển luồng thông tin của RNN và feedforward neural

(Greaves và Au, 2015) Điểm đặc biệt của RNN so với nhiều mô hình khác đó chính là nó có hai đầu vào và dữ liệu hi n t i có s xu t hi n c a dệ ạ ự ấ ệ ủ ữ liệu trong quá khứ Điều này vô cùng hữu hi u vì ệ chuỗi dữ liệu lưu trữ những thông tin x y ra trong quá kh s giúp thuả ứ ẽ ật toán đưa ra phán đoán tốt hơn Đây là điều tạo nên sự khác biệt của RNN so với những thu t toán khác ậ

Ngoài ra, RNN có th x lý dể ử ữ liệu đầu vào với độ dài dữ liệu là vô hạn, đồng thời kích c c a mô hình không ph ỡ ủ ụ thuộc vào kích c c a d ỡ ủ ữ liệu đầu vào Tuy nhiên, tốc độ tính toán c a RNN nhìn chung v n còn ch m so v i m t s mô hình khác Viủ ẫ ậ ớ ộ ố ệc truy c p thông tin t m t kho n thậ ừ ộ ả ời gian dài trước đó bị hạn chế Nó cũng không tận dụng được dữ liệu đầu vào trước đó cho quá trình tính toán hiện tại

Đối v i mớ ạng Neuron truy n th ng, không có quá trình chia s tham s gi a các ề ố ẻ ố ữtầng m ng Tuy nhiên vạ ới RNN, mạng này đã sử dụng trạng thái ẩn trước đó (ht-1)

để tính toán tr ng thái n hi n tạ ẩ ệ ại (ht) Chính vì điều này mà k t qu u ra cu i cùng ế ả đầ ố

sẽ ph ụ thuộc vào chu i d ỗ ữ liệu th i gian Ví d ờ ụ như để tính được ht, ta ph i ph thuả ụ ộc vào ht-1, mà ht-1 s lẽ ại tiế ục phụp t thu c vào ht-ộ 2… Chính vì dữ liệu mang ý nghĩa trình tự như thế nên nếu thay đổi trình t d ự ữ liệu s ẽ có kết quả u ra khác Ngoài ra, đầcũng vì sự tuần tự này mà không tận dụng được khả năng tính toán song song của máy tính Đây là một trong những hạn chế lớn của RNN

Bên cạnh đó, RNN còn gặp ph i 2 vả ấn đề gradient:

Vanishing gradient (đạo hàm b ịtriệt tiêu): Các hàm kích ho t là tanh và sigmoid ạcủa RNN có kết quả đầu ra lần lượ ằm trong đoạt n n [-1,1] và [0,1] Chính vì th mà ếđạo hàm của 2 hàm này đều bằng 0 tại cả 2 đầu Điều này sẽ làm nút mạng tại điểm

đó bị bão hòa, đồng nghĩa với việc các nút trước đó cũng bão hòa theo Các giá trịnhỏ khi th c hi n phép nhân ma trự ệ ận đạo hàm s x y ra tình trẽ ả ạng đạo hàm bị triệt

Trang 33

15

tiêu chỉ sau vài bước Khi đó làm cho mô hình không thể ọc đượ h c những phụ thuộc

xa và bị ảnh hưởng đến kết quả ọ h c và dự đoán

Exploding gradient (bùng nổ đạo hàm): Vấn đề này x y ra khi nh ng giá tr cả ữ ị ủa

ma tr n lậ ớn hơn 1 Khi xảy ra bùng n o hàm s ổ đạ ẽ làm cho chương trình học b d ng ị ừ2.6 MÔ HÌNH LSTM (LONG SHORT - TERM MEMORY)

LSTM là mạng b nh ng n hộ ớ ắ ạn, đây là một d ng cạ ủa RNN nhưng đã khắc phục được các vấn đề ề Gradient mà RNN gặp ph v ải Mô hình này được giới thiệu b i ởHochreiter và Schmidhuber (1997), sau nhiều l n c i tiầ ả ến đã được s d ng khá r ng ử ụ ộrãi LSTM được thiết kế để khắc phục vấn đề phụ thu c xa của mô hình ộ RNN Đặc trưng của mô hình này là khả năng nhớ được thông tin trong thời gian là đặc tính cố định, không yêu cầu người dùng huấn luy n thì LSTM v n nhệ ẫ ớ được

Hình 2.4 Cấu trúc m ng LSTM (Peng và nnk., 2020) ạ

LSTM hoạt động tương tự như mô hình RNN, tuy nhiên nó có kh ả năng ghi nhớ đầu vào trong thời gian dài hơn Bộ nhớ của mô hình LSTM có thể đọc, ghi và xóa thông tin ra kh i b ỏ ộ nhớ ủ c a nó khá giống như bộ nhớ c a m t chi c máy tính Và b ủ ộ ế ộnhớ c a LSTM có khủ ả năng kiểm soát d a vào t m quan tr ng c a thông tin thông ự ầ ọ ủqua tr ng sọ ố được gán vào mà nó sẽ đưa ra các quyết định lưu trữ hay xóa thông tin Điều này cho thấy rằng mô hình được hu n luyấ ện theo th i gian sờ ẽ có thể tự động đưa ra quyết định thông tin nào quan trọng và không quan trọng

Về cơ bản, mô hình LSTM có cấu trúc tương tự như RNN nhưng được c i ti n, ả ếkhắc ph c các vụ ấn đề ề v gradient mà RNN mắc phải nh b nh dài hờ ộ ớ ạn hơn, giúp sử dụng nh ng dữ ữ liệu đầu vào trước đó để dự đoán cho những dữ liệu hi n t i và luôn ệ ạgiữ cho các gradient đủ độ d c Trong mô hình LSTM s có 3 c ng là input gate, ố ẽ ổ

Trang 34

Hình 2.5 C u trúc m ng CNN (Phung & Rhee, 2018) ấ ạ

CNN sử d ng mụ ột lớp mạng đặc biệt có tên là Convolutional layer –Conv (lớp chập) có tác d ng làm giụ ảm độ phứ ạc t p c a hình ủ ảnh để ễ dàng hơn cho quá trình d

xử lý nhưng vẫn không làm ảnh hưởng đến hiệu suất dự đoán của mô hình Ngoài Convolutional layer ra, mô hình CNN còn có một l p nớ ữa đó chính là pooling layer (lớp tổng h p), có tác d ng làm giảm tài nguyên cho phép tính, giải quyợ ụ ết được vấn

đề overfitting khi th c hi n d ự ệ ự đoán của mô hình Nh ng giá tr c a l p poữ ị ủ ớ oling được đưa về một giá trị duy nhất Việc chuyển đổi này có thể làm kích thước đầu vào cho những lớp tiếp theo Do đó giảm tham s hố ọc là một điều cần thiết để tránh vấn đề

mô hình b overfitting ị

Lớp cu i cùng c a CNN có tên là Fully connected layer (l p k t nố ủ ớ ế ối), được dùng

để chuyển đổi các tính năng đã được trích xuất từ các lớp trước để hoàn thành được đầu ra sau cùng Các thông tin sau khi đi qua mỗi lớp và hàm kích hoạt (ReLU) sẽ

Trang 35

17

tạo ra thông tin trừu tượng hơn cho những l p tiớ ếp sau đó Và thông qua quá trình train model, các l p s tớ ẽ ự động h c các giá trọ ị thể ệ hi n qua nh ng l p filter ữ ớ

Trang 36

18

CHƯƠNG 3 PHƯƠNG PHÁP THỰC HIỆN

3.1 LƯU ĐỒ TỔNG QUAN QUÁ TRÌNH THỰC HIỆN ĐỀ TÀI

Dưới đây là lưu đồ toàn bộ quá trình thực hiện đềtài:

Hình 3.1 Lưu đồ ổng quan các bướ t c thực hiện đề tài (Nhóm thực hiện) Đầu tiên, chúng tôi thực hiện quá trình Xây dựng mô hình đánh giá sự thành công của các ICO Quá trình này được th c hi n và coding b ng ngôn ng R, thao ự ệ ằ ữtác trên Rstudio (trình bày cụ thể ở ph n 3.2) ầ Sau khi có được k t qu và l a ch n ế ả ự ọđược mô hình phân loại ICO tốt nhất, nhóm lựa chọn ra các coin thành công, có chỉ

số ROI cao, có tiềm năng phát triển và được nhiều nhà đầu tư quan tâm đầu tư để tiếp tục th c hiự ện quá trình d ự đoán giá của các coin đó Quá trình Xây d ng mô hình d ự ựđoán giá các loại tiền điệ ửn t thành công và thực hiện coding b ng ngôn ng l p trình ằ ữ ậPython, thao tác trực tiếp trên Google Colab (trình bày cụ thể ở phần 3.3)

3.2 PHƯƠNG PHÁP ĐÁNH GIÁ SỰ THÀNH CÔNG CỦA CÁC ICO 3.2.1 Thu thập whitepaper c a các ICO ủ

Chúng tôi th c hiự ện đánh giá sự thành công và không thành công c a 150 ICO ủdựa vào y u tế ố ROI Dữ liệu được thu thập thủ công từ hai nguồn là coinmarketcap

và cryptorank Trong đó cryptorank giúp thu th p thông tin v ROI c a các ICOậ ề ủ , coinmarketcap giúp thu th p các whitepaper Mậ ục đích cuối cùng là tìm cách phân tích các d án ICO có kh ự ả năng đạt đượ ợc l i nhuận, được đầu tư và niêm yết sau mỗi lần bán k t thúc trên các sàn giao dế ịch tiền điệ ửn t uy tín m t cách tộ ự động C ụ thể ở

Trang 37

19

đây, chúng tôi thực hiện tìm kiếm các ICO trên sàn giao d ch điện tử Binance ị

Hình 3.2 T ng hổ ợp số lượng ICO đã thu thập (Nhóm thực hiện)

Để đánh giá sự thành công của các ICO, chúng tôi chọn ra 62 ICO có ch số ỉROI đạt trên 100% từ đầu năm 2021 - 10/2021 Trong đó có những ICO đã và đang được nhiều nhà đầu tư quan tâm và mang lại lợi nhuận cao như Solana (SOL), Ethereum (ETH), IOTA, V i nh ng ICO không thành công, chúng tôi th c hi n ớ ữ ự ệlựa ch n nh ng ICO có chọ ữ ỉ số ROI <30%, đã ngừng hoạt động ho c ít nhặ ất đến khoảng thời gian 10/2021 không mang l i lạ ợi nhuận cho những nhà đầu tư Số lượng ICO không thành công thu thập được là 48 ICO

Để nâng cao được mức độ chắc chắn cho quá trình phân tích và thực hi n text-ệmining, chúng tôi t o thêm m t nhóm các ICO không thành công có ch s ROI <50% ạ ộ ỉ ố

và ch s ỉ ố ATH ROI <100% Trong đó, ATH là chỉ s ố thể hiện giá tr cao nh t c a mị ấ ủ ột loại tài sản nào đó so với giá tr hi n t i c a chính nó N u mị ệ ạ ủ ế ức l i nhu n này <100%, ợ ậtức là ICO không thành công

Tổng kết lại, chúng tôi đã thu thập được whitepaper của 62 ICO thành công và

88 ICO không thành công D a trên s phân loự ự ại cơ bản này, ti p t c th c hi n quá ế ụ ự ệtrình text-mining để đánh giá sự thành công của các ICO

3.2.2 Lưu đồ thực hiện text-mining đánh giá sự thành công các ICO Với mục đích là nghiên cứu để xây dựng được mô hình phân lo i các ICO ra ạthành 2 loại thành công và không thành công, chúng tôi đã tham khảo nhi u nghiên ềcứu về phân loại t các bài nghiên cừ ứu trước đây Cuối cùng, chúng tôi phát hiện các thuật toán v ề text-classification hay text-mining là kỹ thuật hợp lý để có th ể tiến hành

Trang 38

Bước đầu tiên của quy trình text-mining là đọc dữ liệu data và xử lý dữ liệu Chúng tôi ti n hành chuy n 150 file whitepaper ế ể ở d ng pdf sang dạ ạng text để mô hình

có thể đọc hiểu được

Tiếp theo, chúng tôi th c hi n x lý ti n dự ệ ử ề ữ liệu Đây là một bước quan tr ng, ọgiúp cho dữ liệu đầu vào được “sạch” hơn, quá trình huấn luyện mô hình cũng hiệu quả hơn Ở bước này chúng tôi th c hi n lo i b nh ng tự ệ ạ ỏ ữ ừ không có ý nghĩa, cụ thể

là lo i b các m o t , t k t h p, gi i tạ ỏ ạ ừ ừ ế ợ ớ ừ, đạ ừi t , URLs, chuy n hóa t t c các tể ấ ả ừ ởnhiều thì trở v thành t g c Ví dề ừ ố ụ các từ “singing” hay “sings” sẽ được chuyển về dạng t gừ ốc là “sing” Bước này s giúp cho quá trình hu n luy n mô hình tẽ ấ ệ ốt hơn, không ảnh hưởng đến hi u su ệ ất

Chúng tôi th c hi n t o mô hình bag of words (mô hình Term Document ự ệ ạMatrix) Khan và nnk (2013) cho r ng bag of word là m t mô hình túi tằ ộ ừ được s ửdụng trong lĩnh vực phân loại văn bản, nhằm để biểu diễn các từ trong văn bản một

Trang 39

21

cách đơn giản phục vụ việc truy v n thông tin khi hu n luy n các thu t toán Cấ ấ ệ ậ ụ thể

là s n hành t o m t c t cho m i t và m t hàng cho mẽ tiế ạ ộ ộ ỗ ừ ộ ỗi whitepaper Bước này s ẽchuyển đổi văn bản sang dạng định lượng để có thể phân tích từ kho dữ liệu có sẵn, loại bỏ sự thưa thớt trong d u và t o mô hình túi t ữ liệ ạ ừ Salman và Obaida (2021) đã đưa ra kết luận rằng mô hình bag of word được sử dụng trong vấn đề xử lý tiền dữ liệu hay mã hóa văn bản sẽ giúp các thuật toán đưa ra kết qu sát v i th c t ả ớ ự ế hơn C ụthể, vi c t o mô hình này th c ch t là t o m t ma trệ ạ ự ấ ạ ộ ận thưa thớt, giúp lọc đi những thuật ng ít xu t hi n trong ma tr n, tữ ấ ệ ậ ừ đó giúp quá trình huấn luy n mô hình s cho ệ ẽ

ra kết quả dự báo chính xác hơn

Sau khi d ữ liệu đã được “làm sạch”, tiếp tục th c hiự ện dán nhãn “successful” và

“unsuccessful” cho dữ liệu (“thành công” và “không thành công”) Dữ liệu cũng được chia thành 2 ph n, 70% là training set, t c là dầ ứ ữ liệu dùng để hu n luyấ ện mô hình, 30% là testing set, t c là dứ ữ liệu dùng để ể ki m tra lại quá trình huấn luy n 70% data ệ

đó sẽ đưa vào 2 thuật toán là KNN và Naive Bayes để thực hi n phân loệ ại Mỗi thuật toán sẽ có cách phân loại khác nhau, từ đó chọn ra thuật toán nào hoạt động tốt nhất Bước cuối cùng là đưa qua ma trận confusion (ma trận hỗn loạn) để xem xét hiệu su t c a các thu t toán Thông qua ma tr n s có thấ ủ ậ ậ ẽ ể so sánh được k t qu cế ả ủa quá trình dự đoán thông qua quá trình thực nghi m so v i k t quệ ớ ế ả thự ế Sau đó là c tđưa 30% testing set vào để kiểm tra lại và thu về kết quả cuối cùng Ở bước này s ẽkết luận được mô hình nào là tốt nhất, mang lạ ếi k t quả kh quan nhả ất

3.2.3 Cấu hình phần cứng huấn luyện thu t toán ậ

Để thực hi n xây d ng và hu n luy n các mô hình Text-mining (KNN và Naive ệ ự ấ ệBayes), chúng tôi quyết định l a ch n s dự ọ ử ụng các thư viện của R để triển khai các

mô hình trên Quá trình th c nghiự ệm được th c hi n v i RStudio m t cự ệ ớ – ộ hương trình

có môi trường phát triển tích hợp cho R Chúng tôi sử dụng phiên bản RStudio 2022.02.2+485 trên Laptop Intel core i3, RAM 4GB để thực hiện xây d ng các mô ựhình trên

3.2.4 Xây d ng thu t toán KNN ự ậ

Khai báo các thư viện cần thi t ế

Để tiến hành xây dựng thuật toán text-mining nói chung và KNN nói riêng ta phải cài đặt các các thư viện để hỗ trợ trong quá trình chạy dữ liệu Một số thư viện

Trang 40

Hình 3.4 Source code chuyển đổ ữ liệi d u sang d ng text (Nhóm thạ ực hiện) Mặc dù đã chuyển đổi các whitepaper sang dạng file text, nhưng để thuật toán KNN có th ể đọc được những dữ liệu đó thì ta cần cài đặt một công c h ụ ỗ trợ việc đọc hiểu các file này đó chính là xpdf-tools-win-4.03

Hình 3.5 Source code s d ng xpdf-ử ụ tools-win-4.03 đọc dữ liệu (Nhóm thực hiện) Tiến hành cài đặt các tham số

Sau khi đã chuyển đổi các whitepaper sang dạng text, ta chỉ định duới dạng các tham s và ti n hành t o m t biố ế ạ ộ ến pathname để có th truy cể ập được v i các dớ ữ liệu whitepaper đã được lưu trữ trong máy tính để có th c hiự ện các bước x lý ti n d ử ề ữ liệu văn bản sau đó

Tiêu đề	Đánh Giá Sự Thành Công Của Các ICO Bằng Text-Mining Và Lập Mô Hình Máy Học Dự Báo Giá Tiền Điện Tử
Tác giả	Phan Thị Minh Phụng, Nguyễn Thị Ngọc Trang
Người hướng dẫn	ThS. Trần Kim Toại
Trường học	Trường Đại Học Sư Phạm Kỹ Thuật Tp. Hồ Chí Minh
Chuyên ngành	Thương Mại Điện Tử
Thể loại	Khóa Luận Tốt Nghiệp
Năm xuất bản	2022
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	87
Dung lượng	8,52 MB