Nguy n Th ễ ị Ngọc Trang 18126074 ngoctrang31700@gmail.com Thông tin đề tài- Tên của đề tài: Đánh giá sự thành công của các ICO bằng text-mining và lập mô hình máy học dự báo giá tiền đi
Trang 3i
THÔNG TIN KHÓA LU N TẬ ỐT NGHI P Ệ Thông tin sinh viên
1 Phan Th Minh Phị ụng 18126046 minhphungphan1806@gmail.com 2 Nguy n Th ễ ị Ngọc Trang 18126074 ngoctrang31700@gmail.com Thông tin đề tài
- Tên của đề tài: Đánh giá sự thành công của các ICO bằng text-mining và lập mô hình máy học dự báo giá tiền điện tử
- Đơn vị qu n lý: Bả ộ môn Thương Mại Điện Tử, Khoa Kinh Tế, Trường Đại Học Sư Phạm Kỹ Thuật Tp Hồ Chí Minh
- Thời gian th c hi n: T ự ệ ừ ngày 30/08/2021 đến ngày 31/05/2022 - Thời gian b o vả ệ trước hội đồng:
Lời cam đoan của sinh viên
Chúng tôi là Phan Th Minh Ph ng và Nguy n Thị ụ ễ ị Ngọc Trang cam đoan đồ án tốt nghiệp là công trình nghiên c u cứ ủa chúng tôi dướ ự hướng d n c a thi s ẫ ủ ạc sĩ Trần Kim To i và các tài li u tham khạ ệ ảo đính kèm ở cuối báo cáo K t qu công bế ả ố trong đồ án tốt nghiệp là trung thực và không sao chép từ bất k công trình nào khác ỳ
Tp HCM, ngày … tháng … năm 2022 Người thực hiện Người thực hiện
(Ký và ghi rõ h tên)ọ (Ký và ghi rõ h tên) ọ
Giảng viên hướng dẫn xác nhận quyển báo cáo đã được chỉnh sửa theo đề nghị được ghi trong biên bản của H i đồng đánh giá Khóa luận tốt nghiệp ộ
Trang 4ii
(Dùng cho giảng viên hướng dẫn)
Đề tài: Đánh giá sự thành công c a các ICO bằng text-mining và l p mô hình ủ ậ máy h c d báo giá tiọ ự ền đi n tử ệ
Giảng viên hướng dẫn: ThS Trần Kim Toại
1 Phan Th Minh Phị ụng 18126046 2 Nguy n Th ễ ị Ngọc Trang 18126074 Nhận xét bao gồm các nội dung sau đây:
1 Tính hợp lý trong cách đặ ấn đềt v và gi i quy t vả ế ấn đề; ý nghĩa khoa học và thực 2 Phương pháp thực hiện/ phân tích/ thiết kế [25/100]:
Phương pháp hợp lý và tin c y dậ ựa trên cơ sở lý thuyết [10]; có phân tích và đánh giá phù hợp [10]; có tính mới và tính sáng tạo [5]
3 Kết quả thực hiện/ phân tích và đánh giá kết qu / kiả ểm định thiết kế [25/100]: Phù h p v i m c tiêu ợ ớ ụ [10]; phân tích và đánh giá / kiểm th ử thiết k h p lý ế ợ [10]; có tính sáng tạo/ kiểm định chặt chẽ và đảm bảo độ tin cậy [5]
4 Kết luận và đề xuất [10/100] :
Kết luận phù h p vợ ới cách đặ ấn đề, đề xuất v t mang tính c i ti n và thả ế ực tiễn [5]; kết luận có đóng góp mới mẻ, đề xuất sáng tạo và thuyết phục [5]
Trang 5
iii
5 Hình th c trình bày, b cứ ố ục và chất lượng báo cáo [15/100]:
Văn phong nhất quán, bố cục hợp lý, cấu trúc rõ ràng, đúng định dạng mẫu [5]; có tính hấp d n, th hiẫ ể ện năng lực tốt, văn bản trau chuốt [15]
6 Kỹ năng chuyên nghiệp và tính sáng t o: ạ Thể hi n các kệ ỹ năng giao tiếp, kỹ năng làm việc nhóm, và các k nỹ ăng chuyên nghiệp khác trong việc thực hiện đề tài 8 Đánh giá về sự trùng lặp của đề tài
Cần khẳng định đề tài có trùng l p hay không? Nặ ếu có, đề nghị ghi rõ mức độ, tên đề tài, nơi công bố, năm công bố ủa đề tài đã công bố c 10 Nh n xét tinh thậ ần, thái độ ọ ậ h c t p, nghiên c u cứ ủa sinh viên
Đề ngh của giảng viên ị
Ghi rõ “Báo cáo đạt / không đạt yêu cầu của một khóa luận tốt nghiệp cử nhân và được phép/ không được phép bảo vệ khóa luận t t nghiố ệp”
Tp HCM, ngày … tháng … năm 2022
Người nhận xét (Ký và ghi rõ h tên) ọ
Trang 6iv
(Dùng cho gi ng viên ph n biả ả ện)
Đề tài: Đánh giá sự thành công của các ICO bằng text-mining và lập mô hình máy h c d báo giá tiọ ự ền đi n tửệ
Giảng viên hướng dẫn: ThS Trần Kim Toại
1 Phan Th Minh Phị ụng 18126046 2 Nguy n Th ễ ị Ngọc Trang 18126074 Nhận xét bao gồm các nội dung sau đây:
1 Tính hợp lý trong cách đặ ấn đềt v và gi i quy t vả ế ấn đề; ý nghĩa khoa học và thực 2 Phương pháp thực hiện/ phân tích/ thiết kế [25/100]:
Phương pháp hợp lý và tin c y dậ ựa trên cơ sở lý thuyết [10]; có phân tích và đánh giá phù hợp [10]; có tính mới và tính sáng tạo [5]
3 Kết quả thực hiện/ phân tích và đánh giá kết qu / kiả ểm định thiết kế [25/100]: Phù h p v i m c tiêu ợ ớ ụ [10]; phân tích và đánh giá / kiểm th ử thiết k h p lý ế ợ [10]; có tính sáng tạo/ kiểm định chặt chẽ và đảm bảo độ tin cậy [5]
4 Kết luận và đề xuất [10/100]:
Kết luận phù h p vợ ới cách đặ ấn đề, đề xuất v t mang tính c i ti n và thả ế ực tiễn [5]; kết luận có đóng góp mới mẻ, đề xuất sáng tạo và thuyết phục[5]
Trang 7
v
5 Hình th c trình bày, b cứ ố ục và chất lượng báo cáo [15/100]: Văn phong nhất quán, bố cục hợp lý, cấu trúc rõ ràng, đúng định dạng mẫu [5]; có tính hấp d n, th hiẫ ể ện năng lực tốt, văn bản trau chuốt [15]
7 Đánh giá về sự trùng lặp của đề tài Cần khẳng định đề tài có trùng l p hay không? Nặ ếu có, đề nghị ghi rõ mức độ, tên đề tài, nơi công bố, năm công bố ủa đề tài đã công bố c - Điểm (Quy về thang điểm 10 không làm tròn): ………./10
- Xếp lo i chung ạ (Xuất sắc, Giỏi, Khá, Trung bình, Y u, Kém) ế
Trang 8vi
Đề ngh c a giảng viên ph n biện ị ủ ả
Ghi rõ: “Báo cáo đạt/ không đạt yêu cầu của một khóa luận tốt nghiệp kỹ sư, và được phép/ không được phép bảo vệ khóa luận tốt nghiệp”
Tp HCM, ngày … tháng … năm 2022
Người nhận xét (Ký và ghi rõ h tên)ọ
Trang 9vii
Lời đầu tiên, chúng tôi xin chân thành g i l i cử ờ ảm ơn đến GVHD th y Tr n Kim ầ ầ Toại đã hướng d n nhóm m t cách tẫ ộ ận tình cũng như có những h ỗ trợ để nhóm có th ể hoàn thành đồ án đúng tiến độ và hoàn chỉnh nhất Trong quá trình thực hiện đồ án, thầy đã chỉ dẫn và cung cấp nhiều kiến thức mới trong lĩnh vực Machine Learning – một lĩnh vực mà đối với nhóm còn khá mới mẻ Đây là nền tảng rất tốt và vô cùng quan tr ng, giúp nhóm có th hoàn thiọ ể ện đồ án và hỗ trợ ề n n ki n thế ức cho các công việc và nghiên c u sau này.ứ
Đồng thời, nhóm cũng gửi lời cảm ơn đến các giảng viên trường Đạ ọc Sư i h Phạm Kỹ Thuật TP.HCM Trong th i gian h c t p tờ ọ ậ ại trường, các giảng viên đã hỗ trợ, cung cấp nhiều kiến thức và kĩ năng, làm nền tảng để các thành viên trong nhóm có nền tảng để hoàn thành được đồ án t t nghi p này.ố ệ
Lời cu i cùng, chúng tôi xin gố ửi đến quý Thầy, Cô trường Đại học Sư phạm K ỹ thuật TP.HCM l i chúc s c kh e dờ ứ ỏ ồi dào cũng như lời chúc tiếp tục nâng bước, h ỗ trợ cho nh ng th h ữ ế ệ sinh viên và đạt được nhiều hơn nữa thành công trong công việc
Trang 10CHƯƠNG 1 TỔNG QUAN ĐỀ TÀI 1
1.1 GIỚI THIỆU ĐỀ TÀI 1
1.2 TÍNH CẤP THIẾT CỦA ĐỀ TÀI 1
1.3 CÁC CÔNG TRÌNH NGHIÊN C U CÓ LIÊN QUAN 3 Ứ 1.4 NHỮNG ĐIỂM MỚI CỦA ĐỀ TÀI 6
2.2 THUẬT TOÁN KNN (K-NEAREST NEIGHBORS) 10
2.3 THUẬT TOÁN NAIVE BAYES 11
2.4 CONFUSION MATRIX 12
2.5 MÔ HÌNH RNN (RECURRENT NEURAL NETWORK) 13
2.6 MÔ HÌNH LSTM (LONG SHORT - TERM MEMORY) 15
2.7 MÔ HÌNH CNN (CONVOLUTIONAL NEURAL NETWORK) 16
CHƯƠNG 3 PHƯƠNG PHÁP THỰC HIỆN 18
3.1 LƯU ĐỒ Ổ T NG QUAN QUÁ TRÌNH THỰC HIỆN ĐỀ TÀI 18
3.2 PHƯƠNG PHÁP ĐÁNH GIÁ SỰ THÀNH CÔNG C A CÁC ICO 18 Ủ 3.2.1 Thu thập whitepaper của các ICO 18
3.2.2 Lưu đồ thực hiện text-mining đánh giá sự thành công các ICO 19
3.2.3 C u hình ph n c ng hu n luyấ ầ ứ ấ ện thu t toán 21 ậ 3.2.4 Xây d ng thuự ật toán KNN 21
Trang 11ii
3.2.5 Xây d ng thuự ật tốn Naive Bayes 26
3.3 PHƯƠNG PHÁP DỰ BÁO GIÁ TIỀN ĐIỆN T 29 Ử 3.3.1 Thu thập dữ liệu giá tiền điệ ửn t 29
3.3.2 Lựa chọn các ICO thành cơng để ự đốn giá d 32
3.3.3 Lưu đồ thực hiện xây d ng các mơ hình d ự ự đốn giá 33 3.3.10 Tối ưu hĩa các tham số 41
CHƯƠNG 4 KẾT QUẢ THỰC HIỆN 43
4.1 KẾT QUẢ ĐÁNH GIÁ SỰ THÀNH CƠNG C A CÁC ICO 43 Ủ 4.1.1 Thuật tốn KNN 43
4.1.2 Thuật tốn Nạve Bayes 44
4.1.3 So sánh thu t tốn KNN và Nạve Bayes 45 ậ 4.2 KẾT QUẢ Ự D BÁO GIÁ TIỀN ĐIỆN TỬ 45
4.2.1 Kết quả ựa chọ l n mơ hình 45
4.2.2 Kết quả ối ưu hĩa các tham số ủ t c a mơ hình 46
4.2.3 Kết quả ự d báo giá trong 60 phút cu i 51 ố
5.2.1 Những h n ch ạ ế khi đánh giá sự thành cơng c a ICO 59 ủ 5.2.2 Những h n ch khi thạ ế ực hiện dự đốn giá tiền điệ ửn t 60
5.3 ĐỀ XUẤT HƯỚNG PHÁT TRIỂN TƯƠNG LAI 61
KẾT LUẬN 63
Trang 12iii
TÀI LIỆU THAM KH O 64 Ả TIẾNG ANH 64 TIẾNG VIỆT 68
Trang 13iv
Hình 2.1 Cấu trúc ma tr n Confusion Matrix 12 ậ Hình 2.2 Cấu trúc c a mủ ạng nơ-ron h i quy (RNN) 13 ồ
Hình 2.3 Hướng di chuyển luồng thơng tin của RNN và feedforward neural 14
Hình 2.4 Cấu trúc m ng LSTM 15 ạ Hình 2.5 Cấu trúc m ng ạ CNN 16
Hình 3.1 Lưu đồ tổng quan các bước thực hiện đề tài 18
Hình 3.2 Tổng h p sợ ố lượng ICO đã thu thập 19
Hình 3.3 Lưu đồ thực hiện đánh giá sự thành cơng của các ICO 20
Hình 3.4 Source code chuyển đổi dữ liệu sang dạng text 22
Hình 3.5 Source code sử d ng xpdf-ụ tools-win-4.03 đọc dữ liệu 22
Hình 3.6 Source code cài đặt tham số cho mơ hình 23
Hình 3.7 Source code xử lý tiền d u trong text-mining 23 ữ liệ Hình 3.8 Source code tạo ma tr n Bag of words 24 ậ Hình 3.9 Source code thiết lập nhĩm d ữ liệu theo TDM 24
Hình 3.10 Source code xếp ch ng d u (Nhĩm thồ ữ liệ ực hiện) 25
Hình 3.11 Source code phân chia dữ u 25 liệ Hình 3.12 Đưa dữ liệu vào thu t tốn KNN 25 ậ Hình 3.13 Source code chuyển d u sang text 26 ữ liệ Hình 3.14 Source code xử lý tiền d u 27 ữ liệ Hình 3.15 Source code xĩa các thì của từ 27
Hình 3.16 Source code phân chia d u 28 ữ liệ Hình 3.17 Xây dựng mơ hình Nạve Bayes 28
Hình 3.18 Quy trình thu thập d u giá tiữ liệ ền điệ ử ằn t b ng cơng c Coin-for-ụ rich 29 Hình 3.19 Sơ đồ chi tiết thu dữ li u b ng Coin-for-ệ ằ rich 29
Hình 3.20 Kéo thời gian để thu dữ liệu lịch sử t ừ REST APIs 30
Hình 3.21 Truy xuất dữ liệu đã thu được 30
Hình 3.22 Xuất dữ liệu đã thu được sang file csv 31
Hình 3.23 20 dịng dữ liệu giá SOL trên sàn binance 32 Hình 3.24 Lưu đồ thiế ết k và xây dựng mơ hình dự đốn giá tiền điện t 33 ử
Trang 14v
Hình 3.25 Sắp x p và phân loế ại dữ liệu đầu vào 35
Hình 3.26 Source code thực hiện chu n hĩa dẩ ữ liệu 36
Hình 3.27 Source code thực hiện chuy n chi u d u 36 ể ề ữ liệ Hình 3.28 Source code tính tốn các chỉ s hi u su 37 ố ệ ất Hình 3.29 Cấu trúc hoạt động m ng RNN 37 ạ Hình 3.30 Cấu trúc m ng RNN s dạ ử ụng để ự d báo giá tiền điệ ửn t 38
Hình 3.31 Source code mơ hình RNN 38
Hình 3.32 Cấu trúc hoạt động m ng LSTM 38 ạ Hình 3.33 Cấu trúc m ng LSTM s dạ ử ụng để ự d báo giá tiền điệ ửn t 39
Hình 3.34 Source code mơ hình LSTM 40
Hình 3.35 Cấu trúc m ng CNN 40 ạ Hình 3.36 Cấu trúc m ng CNN s dạ ử ụng để ự d báo giá tiền điệ ửn t 41
Hình 3.37 Source code mơ hình CNN 41
Hình 4.1 Ma tr n h n lo n th hi n kậ ỗ ạ ể ệ ết quả ủa thuậ c t tốn KNN 43
Hình 4.2 Ma trận h n lo n th hi n kỗ ạ ể ệ ết quả ủa thuậ c t tốn Nạve Bayes 44 Hình 4.3 Dự đốn giá 3 loại tiền điệ ửn t trong 60 phút cu i 52 ố Hình 4.4 Dự đốn giá 3 loại tiền điệ ửn t trong 20 phút cu i 55 ố
Trang 15vi
DANH MỤC B NG BI U Ả Ể
Bảng 4.1 Kết quả phân loại các whitepaper khi sử ụ d ng thuật tốn KNN 43 Bảng 4.2 Kết quả phân loại các whitepaper khi sử ụ d ng thuật tốn Nạve Bayes 44 Bảng 4.3 So sánh các chỉ s hi u suố ệ ất của thuật tốn KNN và Naive Bayes 45 Bảng 4.4 Kết quả so sánh các mơ hình c a 3 loủ ại tiền điệ ửn t 46 Bảng 4.5 Các giá trị tham số c n l a chầ ự ọn để cĩ được mơ hình CNN tối ưu 47 Bảng 4.6 Kết quả ối ưu tham số t mơ hình CN - data ETH 47 N Bảng 4.7 Kết quả ối ưu tham số t mơ hình CNN - data IOTA 48 Bảng 4.8 Kết quả ối ưu tham số t mơ hình CNN data SO 49 – Bảng 4.9 Kết quả ối ưu tham số ủa mơ hình CNN 50 t c Bảng 4.10 Kết quả các chỉ số c a mơ hình tủ ối ưu 51 Bảng 4.11 Giá g c và giá d báo c a ETH trong 20 dịng cu 52 ố ự ủ ối Bảng 4.12 Giá g c và giá d báo c a IOTA trong 20 dịng cu 53 ố ự ủ ối Bảng 4.13 Giá g c và giá d báo c a SOL trong 20 dịng cu i 54 ố ự ủ ố
Trang 16vii
DANH MỤC CÁC T VI T T T Ừ Ế Ắ
ARIMA Autoregressive Integrated Moving Average
Trang 17viii
TÓM T T Ắ
Bài nghiên c u xây d ng mô hình dứ ự ự đoán sự thành công c a các ICO v i các ủ ớ thuật toán KNN và Naive Bayes Sau đó tiếp tục dự đoán giá các coin thành công thông qua các mô hình RNN, LSTM và CNN Mục đích là tìm ra được mô hình d ự đoán có hiệu suất cao, dự đoán giá chuẩn xác và sai số thấp nhất
Dữ liệu text-mining thu th p t coinmarketcap và cryptorank Bậ ừ ằng phương pháp th ủ công, thu được 150 whitepaper Nhóm đã xây dựng mô hình KNN và Naive Bayes Dữ liệu dự đoán giá thu thập b ng Coin-for-ằ rich, thu được 3 b dộ ữ liệu giá của ETH, IOTA và SOL, m i b có 44640 dòng Nhóm xây d ng mô hình LSTM, ỗ ộ ự RNN, CNN và s dử ụng GridSearchCV để điều ch nh tham s phù h p v i mô hình ỉ ố ợ ớ
Kết qu text-mining cho th y KNN là mô hình có hi u su t cao nh t v i 96,89% ả ấ ệ ấ ấ ớ Về ph n d ầ ự đoán giá, CNN là mô hình phù h p nhợ ất, dự đoán chính xác 73,684% về sự tăng - gi m c a giá ETH, 84,211% v i IOTA và 63,168% v i SOL ả ủ ớ ớ
Bài nghiên c u ch phân lo i s thành công c a ICO d a vào ROI, b i ROI ứ ỉ ạ ự ủ ự ở được các nhà đầu tư quan tâm, ảnh hưởng đến quyết định đầu tư Thực tế còn nhiều yếu t ố ảnh hưởng đến vấn đề này V ph n d ề ầ ự đoán giá, thời gian thu th p d ậ ữ liệu còn ngắn và số l n hu n luy n mô hình ít nên ầ ấ ệ ảnh hưởng đến k t qu dế ả ự đoán
Dự đoán sự thành công c a ICO v n còn m i m ủ ẫ ớ ẻ và chưa có nhiều nghiên c u ứ Dự đoán giá tiền điện tử hiện nay nhận được nhi u s quan tâm K t qu cề ự ế ả ủa đề tài nghiên c u này s là ngu n tham kh o h u ích cho nh ng nghiên c u ti p theo ứ ẽ ồ ả ữ ữ ứ ế
Từ khóa: sách tr ng, dắ ự đoán, tiền điệ ử, khai thác văn bản t n, máy học.
Trang 18ix
ABSTRACT
This paper builds a model to predict the success of ICOs with KNN and Naive Bayes algorithms Then continue to predict the price of successful ICOs through RNN, LSTM, and CNN models The goal is to find a predictive model with high performance, accurate price prediction, and the lowest error.
Text-mining data collected from coinmarketcap and cryptorank By the manual method, 150 whitepapers were obtained The team built KNN and Naive Bayes models Price prediction data collected with Coin-for-rich obtained 3 sets of price data of ETH, IOTA, and SOL, each with 44640 lines The team builds LSTM, RNN, and CNN models and uses GridSearchCV to adjust parameters to fit the model
Text-mining results show that KNN is the model with the highest performance with 96.97% As for price prediction, CNN is the most suitable model, correctly predicting 73.684% for ETH price increase - decrease, 84.211% for IOTA, and 63.168% for SOL
The study only classifies the success of ICOs based on ROI, because ROI is of interest to investors, affecting investment decisions Many factors influence this issue As for price prediction, the time to collect data is short and the number of times to train model is small, which affects the prediction results
Predicting the success of ICOs is still quite new and not much research is available Cryptocurrency price predictions are getting a lot of attention nowadays The results of this study will be a useful reference for future studies
Keywords: whitepaper, prediction, cryptocurrency, text-mining, machine learning
Trang 191
CHƯƠNG 1 TỔNG QUAN ĐỀ TÀI 1.1 GIỚI THIỆU Đ TÀI Ề
Theo Florysiak và Schandlbauer (2022), sách trắng được xem là ngu n thông ồ tin h u ích cung cữ ấp cho các nhà đầu tư tiềm năng đợt phát hành coin đầu tiên (ICO) trong các d án trên, làm n n t ng làm cân b ng tính th c t thông tin gi a nhà phát ự ề ả ằ ự ế ữ hành ICO và nhà đầu tư
Feng và c ng sộ ự (2019) đã cho biế ằt r ng, ICO là m t ngu n tài li u vô cùng ộ ồ ệ quan trọng đối v i các nhà qu n lý trên kh p th gi i, chúng mang l i r t nhi u nguớ ả ắ ế ớ ạ ấ ề ồn thông tin quan tr ng và ọ ảnh hưởng đến quyết định đầu tư của các nhà đầu tư bởi vì chỉ có chúng m i mang l i nh ng ngu n thông tin chính th ng v các coin s p ra m ớ ạ ữ ồ ố ề ắ ắt Vậy đánh giá được độ thành công của một ICO có t m quan trầ ọng như thế nào? Cetingok và Deola (2018) đã thực hi n m t cu c kh o sát trong sệ ộ ộ ả ố 50 nhà đầu tư và kết quả chỉ ra r ng nằ ội dung của sách tr ng có ắ ảnh hưởng nhi u nhề ất đến quyết định đầu tư Đánh giá được ICO nào thành công sẽ là một bước đệm lớn trong vấn đề dự đoán giá, lợi nhuận và những biến đổ ủa chúng, giúp cho nhà đầu tư có nhữi c ng cái nhìn khách quan hơn Ngày nay, dự báo tiền điện tử thường được coi là một trong những vấn đề ự đoán chuỗ d i thời gian thách th c nh t do sứ ấ ố lượng lớn các y u t ế ố không th ể đoán trước liên quan và sự biến động đáng kể ủ c a giá tiền điệ ử ẫn đến t , d n sự ph ụ thuộc phức tạp theo thời gian
Các mô hình d ự báo giá đều d a trên nh ng k ự ữ ỹ thuật máy học sâu nâng cao như các l p b nh ng n h n (LSTM), ph c h p và dài h n Các l p phù hớ ộ ớ ắ ạ ứ ợ ạ ớ ợp được s ử dụng để lọc nhiễu trong d u chu i th i gian ph c tữ liệ ỗ ờ ứ ạp cũng như trích xuất các tính năng có giá trị mới trong khi các lớp LSTM được sử dụng để nắm bắt hiệu quả các mẫu trình t ự cũng như các phụ thuộc dài hạn và ng n hắ ạn.
Dựa trên các công trình trước đó, mục tiêu của nghiên cứu này gồm hai phần: Thứ nhất, đánh giá thành công của ICO v i sách tr ng (phân lo i theo ROI) d a trên ớ ắ ạ ự thuật toán text-mining và th hai, dứ ự đoán giá cho các ICO thành công.
1.2 TÍNH CẤP THIẾT CỦA ĐỀ TÀI
Khai thác văn bản đã trở thành một lĩnh vực nghiên c u thú vị vì nó giúp khám ứ phá thông tin có giá tr t ị ừ các văn bản phi c u trúc Ngoài ra, phân lo i tài li u là mấ ạ ệ ột
Trang 202
mối quan tâm tr ng tâm trong các nghiên cọ ứu khai thác văn bản, b i vì sở ố lượng tài liệu trong m i ngành ngành nghỗ ề đều đạ ố lượt s ng r t lấ ớn và có tính liên đớ ớ ất i v i r nhiều ngành ngh ề khác, do đó việc sẽ gây ra ra r t nhiấ ều khó khăn nếu th c hi n các ự ệ quy trình phân lo i b ng tay (Ting và nnk., 2017) ạ ằ Việc xác định các phương pháp, thuật toán và kỹ thuật x lý chính xác là r t quan trử ấ ọng để trích xu t thông tin b ng ấ ằ cách s dử ụng khai thác văn bản (Dang & Ahmad, 2014) Và trong lĩnh vực tài chính, khai thác văn bản đã được áp dụng trong một số hoạt động rộng lớn, chẳng hạn như dự đoán tỷ giá hối đoái, dựđoán thị trường ch ng khoán, ng dứ ứ ụng qu n lý quan h ả ệ khách hàng và an ninh m ng (Kumar & Ravi, 2016) Các thu t toán r t khác nhau ạ ậ ấ giữa các máy vectơ hỗ trợ, n-gram, bản đồ tự tổ chức, LDA, v.v Bộ dữ liệu chủ yếu tập trung vào các bài báo, hồ sơ công ty và tweet
Dựa trên nh ng k t qu nghiên c u trên thì vi c áp d ng vữ ế ả ứ ệ ụ ấn đề khai thác văn bản vào nhiều lĩnh vực s có thẽ ể đưa ra được nh ng k t qu chính xác và ti t kiữ ế ả ế ệm được nhiều th i gian Chính vì vậy, việc ứng d ng viờ ụ ệc khai thác văn bản vào việc dự đoán thành công c a m t ICO là mủ ộ ột điều r t hấ ữu ích Do đó, sử d ng text-mining ụ vào việc đánh giá ICO là một lĩnh vực nghiên cứu đầy tiềm năng Đặc bi t, sau khi ệ dự đoán được d án ICO nào có kh ự ả năng thành công, việc tiến hành d ự đoán giá cho chúng sẽ mang l i rạ ất nhi u l i ích cho nhề ợ ững nhà đầu tư sau này
Trong nhi u nghiên cề ứu trước đây về d báo s biự ự ến động của tiền điệ ử ằn t b ng mô hình h i quy, dồ ựa trên giá trước đó mang lại hi u su t không cao b i vi c d ệ ấ ở ệ ự đoán này ch y u d a trên sai sủ ế ự ố trung bình bình phương (RMSE) ho c sai sặ ố phần trăm tuyệt đối trung bình (MAPE) giữa giá trị dự đoán và giá trị thực trong 1 mô hình nào đó Những giá tr c a RMSE thị ủ ấp chưa đủ nói lên vi c d ệ ự đoán mô hình thực s mang ự lại hi u quệ ả Do đó, việ ực l a ch n mô hình nghiên c u sọ ứ ẽ ả h hưởn ng nhiều đến tính chính xác c a kủ ết quả cuối cùng
RNN (Elman, 1990) là mô hình máy h c có khọ ả năng xử lý đầu vào v i bớ ất kỳ độ dài nào, khi sử dụng mô hình này không c n lo l ng v kích c mô hình sầ ắ ề ỡ ẽ tăng lên theo kích cỡ đầu vào Và đặc bi t, trong ệ suốt quá trình tính toán thì tr ng s s ọ ố ẽ được chia sẻ Bên cạnh đó, mô hình RNN còn được sử dụng nhiều lĩnh vực xử lý ở ngôn ng t nhiên M c dù, mô hình RNN có kh ữ ự ặ ả năng ghi nhớ những thông tin trước đó, nhưng nó không thể nhớ được những bước ở xa do b mị ất mát đạo hàm Chính vì
Trang 213
vậy, m t mơ hình c i tiộ ả ến để kh c phắ ục được tình trạng này ra đời, cĩ tên là LSTM (Hochreiter & Schmidhuber, 1997) Mơ hình này được thừa hưởng tồn b t mơ ộ ừ hình RNN nhưng nĩ sẽ tích hợp thêm các cổng tính tốn ở lớp ẩn để quyết định giữ lại các thơng tin nào
Theo một nghiên c u gứ ần đây cho thấy r ng RNN và LSTM là hai mơ hình hoằ ạt động tốt hơn những mơ hình chu i th i gian d ỗ ờ ự đốn tiền điện t khác (Dutta và nnk.ử , 2020) Theo m t nghiên c u c a Hijazi và nnk (2015) v s d ng CNN trong viộ ứ ủ ề ử ụ ệc nhận d ng hình nh, h ạ ả ọ đã khẳng định r ng CNN là thuằ ật tốn được sử ụ d ng r ng rãi ộ và mang l i nhi u l i th trong vi c x lý dạ ề ợ ế ệ ử ữ liệu hình nh so v i nh ng thu t tốn ả ớ ữ ậ khác
Theo như nhiều nghiên cứu trước đây cho thấy rằng CNN, LSTM và RNN là những mơ hình mang l i nhi u lạ ề ợi th trong vi c dế ệ ự đốn tiền điệ ửn t so với nh ng ữ mơ hình Machine Learning khác (Ji và nnk., (2019); Jiang, 2020; Li & Dai, 2020) Thơng qua nhi u nghiên cề ứu, cũng như dựa vào những ưu điểm phù h p cho vi c d ợ ệ ự đốn tiền ảo, chúng tơi chọn ra 3 mơ hình để thực hiện quá trình dự đốn xu hướng biến động của tiền điện tử là RNN, CNN và LSTM
1.3 CÁC CƠNG TRÌNH NGHIÊN C U CĨ LIÊN QUAN Ứ
Hiện nay, cĩ r t nhi u nghiên c u v vi c s d ng text-ấ ề ứ ề ệ ử ụ mining cũng như dự đốn sự ến độ bi ng giá của tiền điện tử ở rất nhiều quốc gia Chúng tơi đã tham khảo các nghiên c u v d báo tiứ ề ự ền điện tử (cụ thể là Bitcoin) và m t s nghiên c u v ộ ố ứ ề mơ hình khai thác văn bản để cĩ th ể hồn thành đề tài m t cách t t nh t Các báo cáo cáo ộ ố ấ trước đây gồm:
• Bijalwan và nnk (2014) đã thực hiện nghiên c u vứ ề việc phân loại các bài báo d a trên vi c tìm ki m t khĩa cự ệ ế ừ ủa người dùng bằng 3 mơ hình khai thác văn bản là: KNN, Nạve Bayes và Term Graph K t qu cho thế ả ấy KNN cĩ độ chính xác tối đa so v i Naive Bayes và Term-Graph H n ch ớ ạ ế đối với KNN là độ ph c t p v ứ ạ ề thời gian của nĩ cao
• Ji và nnk (2019) đã thực hiện một nghiên cứu dự đốn giá của Bitcoin dựa trên nh ng mơ hình máy hữ ọc khác nhau như DNN, LSTM, RNN và Resnets đã đưa ra k t lu n r ng khế ậ ằ ả năng dự đốn của mơ hình LSTM tốt hơn các mơ hình dự đốn
Trang 224
khác cho các bài toán h i quy, còn mô hình d trên DNN hoồ ự ạt động t t nh t cho các ố ấ bài toán phân lo i Hạ ọ cũng đã đã đánh giá hiệu su t dấ ự đoán về giá Bitcoin c a các ủ mô hình h c sọ âu khác nhau như mạng LSTM, mạng nơ-ron ph c h p, mứ ợ ạng nơ-ron sâu, mạng dư sâu và sự ế ợ k t h p c a chúng K t qu cho th y r ng mô hình d a trên ủ ế ả ấ ằ ự DNN thần kinh sâu hoạt động tốt nhất đố ớ ự lên xuối v i s ng của giá trong khi các mô hình LSTM hơi tốt hơn các mô hình còn lại để dự báo giá Bitcoin
▪ Li và Da (2020) đã thựi c hi n m t nghiên c u v dệ ộ ứ ề ự đoán giá dựa vào các mô hình thuật toán Machine Learning để có th tìm ra mô hình nào trong s nh ng ể ố ữ mô hình nghiên c u mang l i hi u su t dứ ạ ệ ấ ự đoán tốt nh t K t qu cho th y m ng n -ấ ế ả ấ ạ ơ ron lan truyền ngược BP (Back Propagation Neural Network) có hi u suệ ất kém hơn khi đem nó đi so sánh với CNN và LSTM Trong khi CNN có nhiều lợi thế hơn về chỉ số giá tr d ị ự đoán mà LSTM lại có các ch s ỉ ố theo hướng dự đoán tốt hơn Và khi tạo ra h n hỗ ợp m ng CNN-ạ LSTM thì đưa ra chỉ ố ố s t t nh t cho c hai giá tr d ấ ả ị ự đoán và hướng dự đoán
▪ Jiang (2020) đã dự đoán giá của Bitcoin bằng 4 phương pháp máy học là LSTM, GRU, MLP và RMM K t qu cho th y r ng cế ả ấ ằ ả 4 mô hình đều có hi u suệ ất gần nhau, vì v y các mô hình khác nhau có thậ ể được ưu tiên trong các tình hu ng ố khác nhau LSTM và GRU có hi u suệ ất t t nh t trên tố ấ ập dữ liệu th nghi m g c Mô ử ệ ố hình MLP yêu cầu ít năng lực tính toán hơn trong khi nó có hiệu su t thấ ấp hơn một chút so với mô hình RNN
▪ Munim và nnk (2019) đã so sánh hai mô hình là trung bình động tích hợp tự hồi quy (ARIMA) và mô hình tự động hồi quy mạng nơ ron (NNAR) Kết quả là mô hình ARIMA hoạt động tốt hơn NNAR trong việc dự đoán giá Bitcoin.
▪ Dutta và nnk (2020) đã dự đoán giá Bitcoin bằng phương pháp tiếp cận đơn vị nh k thông qua mô hình RNN, GRU và LSTM Kđị ỳ ết quả cho th y r ng mô hình ấ ằ kết h p gi a RNN-GRU hoợ ữ ạt động tốt hơn LSTM và GRU cũng có xu hướng hoạt động tốt hơn LSTM trên dữ liệu đào tạo ít hơn
▪ Livieris và nkk (2020) đã đề xu t m t mô hình m ng thấ ộ ạ ần kinh sâu đa đầu vào MICDL để dự đoán giá và chuyển động của tiền điệ ửn t K t qu c a nghiên c u ế ả ủ ứ cho th y rấ ằng mô hình đề xu t trên dấ ự đoán giá tin cậy hơn so với những mô hình máy h c truy n th ng, ngoài ra mô hình này có khọ ề ố ả năng khai thác hiệu qu dả ữ liệu
Trang 235
tiền điện tử hỗn hợp với chi phí thấp hơn
▪ Phaladisailoed và Numnonda (2018) đã so sánh hai mô hình GRU và mô hình hồi quy Huber v tính hi u quề ệ ả và độ chính xác cao để ự đoán giá Bitcoin Kế d t qu ả cho th y r ng Gấ ằ RU có độ chính xác hơn, tuy nhiên sẽ mất nhiều thời gian hơn so với Huber
▪ Chuanjie và nnk (2019) đã thực hi n m t nghiên c u v vi c phân lo i các ệ ộ ứ ề ệ ạ báo cáo chính th c có th ứ ể được th c hi n thông qua mô hình hóa chự ệ ủ đề ới mô hình v phân b Dirichlet tiố ềm ẩn (LDA) K t qu c a mô hình phân lo i tế ả ủ ạ ừ LDA đã cung cấp rất nhiều thông tin h u ích trong vữ ấn đề ự đoán ICO thành công d
▪ Cetingok và Deola (2018) đã đưa ra một mô hình khai thác văn bản b ng ằ thuật toán KNN trên sách tr ng nh m tắ ằ ự động hóa quyết định đầ tư vào dựu án Kết quả cho thấy r ng mô hình không mằ ắc bất kỳ sai l m nào trong viầ ệc dự đoán 10 ICO thành công và 7 ICO không thành công
▪ Derbentsev và nnk (2020) đã thực hi n m t bài nghiên cệ ộ ứu so sánh các đặc tính tiên lượng cho nhi m v d ệ ụ ự đoán ngắn h n v t giá hạ ề ỷ ối đoái tiền điện t c a mử ủ ột số mô hình máy h c: thu t toán BART, M ng th n kinh nhân t o (ANN) và cây quyọ ậ ạ ầ ạ ết định k t h p ế ợ — RF K t qu c a nghiên c u này cho th y r ng các thu t toán Machine ế ả ủ ứ ấ ằ ậ Learning (cụ thể là ANN, C&RT và các t h p c a chúổ ợ ủ ng) đưa ra kết qu tả ốt hơn so với các thuộc tính th ng kê chuố ỗi thời gian so với các phương pháp thống kê và kinh tế lượng c ổ điển
▪ Một nghiên c u so sánh gi a RNN và tứ ữ ự động hồi quy vectơ (VAR) được thực hi n b i El-ệ ở Abdelouarti Alouaret (2017) để ự đoán giá Bitcoin K t qu c a h d ế ả ủ ọ cho thấy r ng các mô hình RNN có hi u suằ ệ ất tốt hơn so với phương pháp VAR.
▪ Li và nnk (2020) đã thực hi n nghiên c u dệ ứ ự đoán biến động giá Bitcoin bằng vi c s dệ ử ụng LSTM và một m ng nhúng K t qu cho th y r ng mô hình kạ ế ả ấ ằ ết hợp LSTM và mạng nhúng đạt hiệu suất vượt trội so với mô hình LSTM căn bản
▪ Mudassir và nnk (2020) đã thực hi n m t bài nghiên c u các d báo giá ệ ộ ứ ự Bitcoin từ ngắn hạn đến trung h n b ng cách s d ng các mô hình máy h c, bao gạ ằ ử ụ ọ ồm ANN, SANN, SVM và LSTM K t qu cho th y rế ả ấ ằng các mô hình đều đạt yêu cầu và hi u su t tệ ấ ốt Trong đó LSTM đã cho thấy hi u su t t ng th t t nh t Tuy nhiên ệ ấ ổ ể ố ấ đối với những dự báo hàng ngày thì MAPE đạt hiệu suất thấp nhất là 1,44%, trong
Trang 246
khi nĩ thay đổi từ 2,88% đến 4,10% cho thời hạn từ bảy đến chín mươi ngày ▪ Greaves và Au (2015) đã thu thập các giao dịch Bitcoin để ự đốn giá d Bitcoin Họ đã sử ụ d ng b n mơ hình phân lo i là: Baseline, h i quy logistic, SVM ố ạ ồ và mạng nơ ron Kết quả thu được cho thấy các mơ hình cĩ độ chính xác gần như tương đương nhau, cao nhất là mơ hình mạng nơ-ron với 55,1%, mơ hình hồi quy logistic là 54,3%, SVM là 53,7% và 53,4% đối v i mơ hình Baseline ớ
• Dai và c ng sộ ự (2007) đã thực hi n m t nghiên c u v phân loệ ộ ứ ề ại văn bản thơng qua mơ hình Nạve Bayes và họ đã đưa ra k t lu n v hi u qu phân loế ậ ề ệ ả ại văn bản của thuật tốn Nạve Bayes đạt hiệu su t sao ấ
• Jadhav và Channe (2014) đã thực hiện m t nghiên cộ ứu để đánh giá hiệu suất phân loại văn bản c a các thu t tốn KNN, Naive Bayes, Decision Tree và k t qu ủ ậ ế ả cho th y r ng mơ hình KNN mang l i hi u ầ ằ ạ ệ suất phán đốn tốt nh t so v i hai thuấ ớ ật tốn cịn l i, Naive Bayes mang l i k t qu ạ ạ ế ả phán đốn với thời gian hu n luy n nhanh ấ ệ nhất
1.4 NHỮNG ĐIỂM MỚI CỦA ĐỀ TÀI
Thơng qua nh ng nghiên cữ ứu trước đây cĩ thể thấy rằng, đã cĩ nhiều nghiên cứu thành cơng nh áp d ng vờ ụ ấn đề khai thác văn bản cũng như dự đốn giá tiền điện tử Vi c chúng tơi ti p tệ ế ục sử ụng text-mining vào việc đánh giá white paper là lĩnh d vực nghiên cứu đầy tiềm năng, vừa gĩp ph n phát tri n viầ ể ệc ứng dụng khai thác văn bản vào việc đánh giá các ICO Điểm m i là chúng tơi k t h p viớ ế ợ ệc đánh giá sự thành cơng c ng thêm v i vi c d ộ ớ ệ ự đốn giá cho các ICO Điều này s mang l i r t nhi u lẽ ạ ấ ề ợi ích và s tham kh o cho nhự ả ững nhà đầu tư Tuy đề tài cịn hạn chế về nhiều mặt (sẽ được trình bày cụ thể ở chương 5), tuy nhiên cũng cĩ thể xem là tài liệu để các nhà nghiên c u cĩ chuyên mơn phát tri n thêm v ứ ể ề sau.
Theo chúng tơi tìm hiểu và nhận định nhi u nghiên cở ề ứu trước đây, dữ liệu d ự báo giá tiền điệ ử đượn t c thu th p trên nh ng trang web là khá h n chậ ữ ạ ế, khơng đáp ứng được độ chính xác của dự án Tại nghiên cứu của tác giả Phạm Hồng Anh (2021), tác giả đã thực hiện dự báo giá của Bitcoin bằng cách thu thập dữ liệu giá Bitcoin theo t ng ngày b ng Coinmarket Tuy k t qu thu v khá tích cừ ằ ế ả ề ực, nhưng các sai s c a mơ hình t t nh t cịn khá cao Nh n thố ủ ố ấ ậ ấy điều đĩ, ở bài nghiên c u này, ứ
Trang 257
chúng tôi đã thu thập dữ liệu bằng công cụ Coin-for-rich của tác giả Trần Việt Anh và Vương Hoài Nam Công cụ này giúp thu thập dữ liệu thực tế ngay t i thạ ời điểm thu cũng như thu dữ liệu lịch sử của các loại tiền điện tử từ REST APIs trên sàn Binance, qua các bi n s : giá m c a, giá cao, giá thế ố ở ử ấp, giá đóng cửa, số lượng giao dịch và giá tr v n hóa th ị ố ị trường Các bi n s ế ố này được thu v v i s biề ớ ự ến động chênh lệch theo t ng phút T t cừ ấ ả đều có sự tác động đố ới các giao dịch và hi v ầu như đều xuất hiện trên các sàn giao dịch tiền điện tử Việc thu thập dữ liệ ự động hóa thông u t qua API s giúp d ẽ ữ liệu thu được sạch hơn, giúp người dùng có th d dàng xây d ng ể ễ ự ứng dụng phân tích d liệu của riêng mình Với công cụ này, người dùng có thể tùy ữ chỉnh th i gian thu thập dữ liệu và ng d ng theo ý mình, ch y mô hình ngay trên ờ ứ ụ ạ database đã được kéo Nhờ đó, chúng tôi có thể đưa ra những dự báo về giá thông qua các mô hình máy h c m t cách c ọ ộ ụ thể và chi tiết hơn.
1.5 MỤC TIÊU NGHIÊN C U Ứ
Với bài nghiên c u này, nhóm chúng tôi nhứ ận định c n ph i thầ ả ực hiện được các mục tiêu cụ thể sau:
Đánh giá sự thành công của một ICO thông qua thuật toán text-mining: Để có th ể đánh giá và phân loại được sự thành công c a m t ICO b t kủ ộ ấ ỳ thì c n ph i xác ầ ả định được yếu t nào s quyố ẽ ết định đến kh ả năng thành công Đố ới v i các d ự án kinh tế nói chung và ICO nói riêng thì l i nhu n s là yợ ậ ẽ ếu t ố ảnh hưởng lớn đến quyết định rót v n cố ủa các nhà đầu tư, từ đó sẽ quyết định khả năng thành công hay không của một d ự án ICO Do đó trước khi d ự đoán khả năng thành công của ICO thì ta ph i thu ả thập và phân loại được ROI c a ICO nào thành công và không thành công qua mủ ức độ % của ROI
Chọn lọc được những ICO có khả năng thành công trong tương lai: Để có thể chọ ọc được ICO thành công trong tương lai thì phả ựa vào các ICO đã thànn l i d h công trong quá kh , d a vào trung bình %ROI cứ ự ủa các ICO đã nổi tiếng để có th ể làm n n t ng dề ả ự đoán được ICO thành công trong tương lai thông %ROI và chiều hướng tăng hay giảm của các ICO này
Phân tích và d báo giá c a nh ng ICO thành công thông qua vi c tri n khai ự ủ ữ ệ ể và hu n luy n các mô hình máy h c CNN, RNN và LSTM: ấ ệ ọ Để có th phân tích và ể dự báo, c n ph i thu thầ ả ập được bộ dữ liệu giá của các lo i tiạ ền điệ ừ ừ đó huấn n t , t
Trang 268
luyện chúng b ng các mô hình máy h c Sau quá trình hu n luy n, thằ ọ ấ ệ ực hiện so sánh các chỉ s hiố ệu suất nhằm để lựa chọn mô hình d báo tự ốt nhất nhất, đồng thờ ối ưu i t các tham s cố ủa mô hình để mô hình cu i cùng là chu n nh t, dố ẩ ấ ự báo được k t qu ế ả chính xác nhất
So sánh biến động so v i giá th c tớ ự ế: T k t qu d báo giá, th c hi n so sánh ừ ế ả ự ự ệ thủ công để kiểm tra được s biự ến động và chênh l ch so v i th c t (so sánh s chênh ệ ớ ự ế ự lệch của giá d báo v i s chênh l ch c a giá th c t t bự ớ ự ệ ủ ự ế ừ ộ dữ liệu đã thu thậ ừp t trước) Từ đó đưa ra được phương án phù hợp và đề xuất hướng phát triển tốt hơn cho đề tài.
Trả lời được các câu h i nghiên cỏ ứu: Cùng v i các m c tiêu trên, trong bài ớ ụ nghiên cứu này, chúng tôi cũng sẽ thông qua việc xây d ng các thu t toán và thự ậ ực hiện chúng mà lần lượt giải đáp cho những câu hỏi dưới đây:
- Làm th ế nào để đưa ra được đánh giá được khả năng thành công của ICO bất kỳ thông qua ch s ROI và whitepaper c a các ICO? ỉ ố ủ
- Trong quá trình thu thập d u thì n n t ng nào cho cho phép vi c thu thữ liệ ề ả ệ ập các thông tin về ROI cũng như các whitepaper ICO?
- Việc đánh giá sự thành công c a whitepaper sủ ẽ được th c hi n trên mô hình ự ệ máy h c nào? ọ
- Việc dự đoán giá dựa vào các dữ liệu thu th p b ng API s mang l i k t qu ậ ằ ẽ ạ ế ả như thế nào so với các data có sẵn từ các trang web tiền điện tử uy tín như coin market?
- Mô hình thu t toán dậ ự đoán giá Machine Learning nào s mang l i hi u qu ẽ ạ ệ ả tốt nh t, dấ ự đoán giá chính xác nhất cho các ICO đã được đánh giá là thành công trước đó?
1.6 ĐỐI TƯ NG, PHỢ ẠM VI, PHƯƠNG PHÁP NGHIÊN CỨU
Đối tượng, phạm vi nghiên cứu: Đồ án tập trung vào chỉ số ROI của các loại tiền o trên sàn Binance v i nh ng dả ớ ữ ữ ệu v s bili ề ự ến động giá được thu th p b ng ậ ằ cách kéo d ữ liệu l ch s t REST APIs cùng vị ử ừ ới 150 whitepaper được thu th p t nậ ừ ền tảng coinmarket
Phương pháp nghiên cứu: Thông qua vi c thu th p d ệ ậ ữ liệu sơ cấp và th c p cứ ấ ủa nhiều lo i tiạ ền điệ ửn t ph bi n, k t hổ ế ế ợp với phân tích và x lý sử ố liệu để đưa ra kết
Trang 279
quả có tính chính xác cao 1.7 B Ố C C CỤ ỦA ĐỀ TÀI
Ngoài phần tóm tắt đề tài, k t lu n, mế ậ ục l c, các danh m c hình ụ ụ ảnh, sơ đồ và tài liệu tham kh o, k t cả ế ấu đề tài bao g m 5 ồ chương:
Chương 1 Tổng quan đề tài Chương 2 Cơ sở lý thuyết Chương 3 Phương pháp thực hiện Chương 4 Kết quả thực hiện
Chương 5 Kết luận đề tài - đề xuất hướng phát triển
Trang 2810
2.1 ICO LÀ GÌ?
ICO là vi t t t c a t Initial Coin ế ắ ủ ừ Offering được d ch ra là phát hành ti n mã ị ề hóa lần đầu Đây là một cách để giúp các nhóm d án ti n mã hóa có thự ề ể huy động vốn trong nhóm những người am hi u và có khể ả năng đầu tư vào những d án tiự ền mã hóa Trong mỗi đợt ICO, các nhóm d án s t o ra các ự ẽ ạ token trên blockchain để bán cho những người mua trước khi các lo i tiạ ền mã hóa này được phát hành để ọ h có th s dể ử ụng trước ho c s dặ ử ụng trong tương lai, bên cạnh đó các dự án này s ẽ được rót vốn để phát triển tốt hơn.
ICO n ra ph biổ ố ến vào năm 2014 và phương pháp này được nhiều người biết đến khi sử dụng để huy động vốn cho đồng tiền Ethereum và gây được nhiều tiếng vang đến hi n nay T ệ ừ đó rất nhi u d ề ự án blockchain đã sử dụng phương pháp này để huy động vốn
2.2 THUẬT TOÁN KNN (K-NEAREST NEIGHBORS)
KNN là m t k thu t hộ ỹ ậ ọc có giám sát, thường được s dử ụng để phân lo i quan ạ sát m i thông qua vi c tìm kiớ ệ ếm các điểm tương đồng gi a quan sát m i v i nh ng ữ ớ ớ ữ dữ liệu sẵn có Tuy mô hình này đơn giản nhưng độ chính xác của nó cũng khá ổn định vì nó không có tham số như nhiều mô hình máy học khác Mô hình sẽ không đưa ra bất cứ giả định nào trong việc phân bổ dữ liệu và mô hình này được sử dụng trực tiếp để phục vụ phân loại đa lớp
Zhang và nnk (2018) cho rằng KNN là phương pháp phân loại trong khai thác dữ liệu và thống kê các điểm gần nhất với quy trình thực hiện đơn giản và hiệu suất phân loại đáng kể M c dù thu t toán KNN s t n nhi u thặ ậ ẽ ố ề ời gian cho các bước xử lý tiền dữ ệu nhưng thuật toán này mang lli ại độ chính xác cao hơn các thuật toán khác (Bijalwan và nnk., 2014)
Thuật toán KNN sẽ đưa ra giả định r ng nh ng th có tính ch t gi ng nhau s ằ ữ ứ ấ ố ẽ nằm ở v trí gị ần nhau Sau đó KNN sẽ phán đoán mức độ ống nhau c gi ủa 2 điểm d ữ liệu d a vào kho ng cách gi a gi a chúng thông qua vi c xây d ng công th c toán ự ả ữ ữ ệ ự ứ học
Ưu điểm của mô hình này chính là quá trình huấn luyện đơn giản và không tốn
Trang 2911
nhiều th i gian Vi c d ờ ệ ự đoán kết qu u ra cả đầ ủa data cũng không phứ ạc t p và không yêu cầu đưa ra giả ử ề ấn đề s v v phân phối của các class Tuy nhiên, mô hình này khi sử dụng cũng có khuyết điểm là n u tham s ế ố định nghĩa K nhỏ s s gây ra vi c nhiẽ ẽ ệ ễu kết qu cả ủa mô hình Ngoài ra, KNN là thuật toán có nh ng tính toán trong quá trình ữ dự đoán tập trung ở khâu test dữ liệu Do v y, vi c tính kho ng cách cậ ệ ả ủa từng điểm dữ liệu của training set s tẽ ốn nhi u th i gian Tham sề ờ ố K càng l n thì mớ ức độ phức tạp c a mô hình s càng lủ ẽ ớn N u viế ệc lưu trữ ữ liệ d u n m toàn b trong b nhằ ộ ộ ớ s ẽ ảnh hưởng đến hiệu suất của mô hình
2.3 THUẬT TOÁN NAIVE BAYES
Theo Rish (2001) Naive Bayes còn được gọi là mô hình phân l p, có thớ ể đơn giản hóa vi c hu n luy n mô hình mệ ấ ệ ột cách đáng kể ằ b ng vi c giệ ả định các bi n là ế độc lập Đây là một mô hình máy học dùng để phân loại các mẫu dựa vào các đặc tính đã được xác định trước đó McCallum và Nigam (1998) đã khẳng định rằng mô hình Naive Bayes là mô hình phân loại đơn giản, b i trong quá trình phân loở ại đều giả định r ng t t c các thu c tính c a các biằ ấ ả ộ ủ ến độc l p v i nhau trong các l p d ậ ớ ớ ữ liệu Theo Zhang và Gao (2011), Naive Bayes được ứng dụng nhiều trong lĩnh vực phân loại văn bản nhờ vào đặc trưng tính đượ ầc t n s xu t hi n c a m t t trong mố ấ ệ ủ ộ ừ ột văn bản cụ thể, dựa trên các điều ki n xác su t cệ ấ ủa các đối tượng c a thuủ ộc tính được chọn bằng các phương pháp lựa chọn đối tư ng ợ
Mô hình này được xây dựng dựa trên nguyên lý Bayes trong xác suất thống kê (Efron, 2013).:
Theo công thức trên, người ta áp dụng định lý Bayes để tính toán xác su t s ấ ự kiện A xảy ra khi đã biế ự ệt s ki n B x y ra, kí hi u là ả ệ P(A|B) Trong đó P(A) và P(B) lần lượt là xác suất xảy ra của 2 sự kiện A và B
Mô hình này có ưu điểm là khá đơn giản và d s d ng, v i kh ễ ử ụ ớ ả năng đoán nhãn của dữ liệu test đạt ở mức cao và có độ chính xác cao Ngoài ra, Naive Bayes cũng đưa ra giả định các feature của dữ liệu mang tính độc l p v i nhau, nh ậ ớ ờ đó thuật toán chạy r t nhanh so v i các thu t toán phân loấ ớ ậ ại văn bản khác Tuy nhiên, trong quá trình test, mặc dù Naive Bayes đưa ra các dự đoán chính xác, nhưng khi chạy thuật
Trang 3012
toán v i dớ ữ liệu training thì độ chính xác c a nó còn khá h n ch so v i nhi u thuủ ạ ế ớ ề ật toán khác Ngoài ra thì trong th c t thì các bi n c a d ự ế ế ủ ữ liệu không th ể hoàn toàn độc lập với nhau
2.4 CONFUSION MATRIX
Confusion Matrix được gọi là ma trận nhầm lẫn hay ma tr n lậ ỗi Krstinić và nnk (2020) đã nhận định rằng ma tr n nh m l n là m t b n ghi chi tiậ ầ ẫ ộ ả ết đo lường hiệu suất ph c a quá trình phân loổ ủ ại văn bản bi n nhế ất và được s d ng ph bi n cho ử ụ ổ ế nhiều mô hình máy học Luque và nnk (2019) đã đưa ra kết lu n r ng s d ng ma ậ ằ ử ụ trận l i không ch ỗ ỉ để đánh giá hiệu su t k t cùng mà các thu t toán mang l i mà ngoài ấ ế ậ ạ ra còn d a vào nh ng ch s trong ma trự ữ ỉ ố ận để ối ưu mô hình bằ t ng việc điều chỉnh các tham s c a thu t toán Ma tr n l i hi n th d ng b c c bố ủ ậ ậ ỗ ể ị ở ạ ố ụ ảng để giúp hình dung hiệu su t c a m t mô hình thu t toán c ấ ủ ộ ậ ụ thể và rõ ràng nh t C ấ ụ thể, v i m i l p phân ớ ỗ ớ loại, m t confusion matrix g m có 4 ch s :: ộ ồ ỉ ố
Hình 2.1 C u trúc ma tr n Confusion Matrix (ấ ậ Luque và nnk, 2019) Trong đó, các ch sỉ ố quan trọng bao g m: ồ
TP (True Positive): Số lượng điểm c a l p ủ ớ positive được phân loại đúng là
Trang 3113
thông qua Precision và Recall theo công thức (Krstinić và nnk, 2020):
Trong đó:
Precision: t l s ỉ ệ ố điểm TP trong t ng s nhổ ố ững điểm được phân lo i là Positive ạ Recall: t l s ỉ ệ ố điểm TP trong t ng s ổ ố những điểm thực sự là Positive Với 2 ch s này, ta có thỉ ố ể tính được ch sỉ ố đánh giá độ chính xác cho c mô ả hình theo công thức:
2.5 MÔ HÌNH RNN (RECURRENT NEURAL NETWORK)
RNN là m t mô hình ngôn ng và tộ ữ ự động sinh văn bản, nó có th cho bi t xác ể ế suất c a m t t d a vào kh ủ ộ ừ ự ả năng nhớ các thông tin được tính toán trước đó RNN là mô hình khá ph biổ ến và được sử ụ d ng nhiều trong lĩnh vực x lý ngôn ng t nhiên ử ữ ự hay nh n d ng gi ng nói ậ ạ ọ
Hình 2.2 Cấu trúc c a mủ ạng nơ-ron h quy (RNN) (Peng và nnk., 2020) ồi RNN có cách th c hoứ ạt động hoàn toàn khác so v i mớ ạng Neuron thông thường (Feedforward Neural Network) Thông tin c a mủ ạng Neuron thông thường truyền theo một hướng th ng cẳ ố định t lừ ớp đầu vào sau đó qua lớ ẩp n và cu i cùng là l p ố ớ đầu ra Do đó luồng thông tin ch truyỉ ền theo một chiều và không có chiều ngượ ại c l Vì th Feedforward Neural Network không có bế ộ nhớ cho lớp đầu vào, nó ch nh ỉ ớ được nh ng d ữ ữ liệu trong quá kh và không có quá trình hu n luy n Nứ ấ ệ gượ ạc l i, RNN lại có luồng thông tin được di chuy n theo mể ột vòng l p l i, liên t c n i ti p nhau ặ ạ ụ ố ế theo thời gian Do đó khi RNN đưa ra dự đoán của mình thì nó s xem l i nh ng d ẽ ạ ữ ữ liệu nó đã được nhận trước đó dựa trên bộ nhớ
Trang 3214
Hình 2.3 Hướng di chuyển luồng thông tin của RNN và feedforward neural (Greaves và Au, 2015)
Điểm đặc biệt của RNN so với nhiều mô hình khác đó chính là nó có hai đầu vào và dữ liệu hi n t i có s xu t hi n c a dệ ạ ự ấ ệ ủ ữ liệu trong quá khứ Điều này vô cùng hữu hi u vì ệ chuỗi dữ liệu lưu trữ những thông tin x y ra trong quá kh s giúp thuả ứ ẽ ật toán đưa ra phán đoán tốt hơn Đây là điều tạo nên sự khác biệt của RNN so với những thu t toán khác ậ
Ngoài ra, RNN có th x lý dể ử ữ liệu đầu vào với độ dài dữ liệu là vô hạn, đồng thời kích c c a mô hình không ph ỡ ủ ụ thuộc vào kích c c a d ỡ ủ ữ liệu đầu vào Tuy nhiên, tốc độ tính toán c a RNN nhìn chung v n còn ch m so v i m t s mô hình khác Viủ ẫ ậ ớ ộ ố ệc truy c p thông tin t m t kho n thậ ừ ộ ả ời gian dài trước đó bị hạn chế Nó cũng không tận dụng được dữ liệu đầu vào trước đó cho quá trình tính toán hiện tại
Đối v i mớ ạng Neuron truy n th ng, không có quá trình chia s tham s gi a các ề ố ẻ ố ữ tầng m ng Tuy nhiên vạ ới RNN, mạng này đã sử dụng trạng thái ẩn trước đó (ht-1) để tính toán tr ng thái n hi n tạ ẩ ệ ại (ht) Chính vì điều này mà k t qu u ra cu i cùng ế ả đầ ố sẽ ph ụ thuộc vào chu i d ỗ ữ liệu th i gian Ví d ờ ụ như để tính được ht, ta ph i ph thuả ụ ộc vào ht-1, mà ht-1 s lẽ ại tiế ục phụp t thu c vào ht-ộ 2… Chính vì dữ liệu mang ý nghĩa trình tự như thế nên nếu thay đổi trình t d ự ữ liệu s ẽ có kết quả u ra khác Ngoài ra, đầ cũng vì sự tuần tự này mà không tận dụng được khả năng tính toán song song của máy tính Đây là một trong những hạn chế lớn của RNN
Bên cạnh đó, RNN còn gặp ph i 2 vả ấn đề gradient:
Vanishing gradient (đạo hàm b ịtriệt tiêu): Các hàm kích ho t là tanh và sigmoid ạ của RNN có kết quả đầu ra lần lượ ằm trong đoạt n n [-1,1] và [0,1] Chính vì th mà ế đạo hàm của 2 hàm này đều bằng 0 tại cả 2 đầu Điều này sẽ làm nút mạng tại điểm đó bị bão hòa, đồng nghĩa với việc các nút trước đó cũng bão hòa theo Các giá trị nhỏ khi th c hi n phép nhân ma trự ệ ận đạo hàm s x y ra tình trẽ ả ạng đạo hàm bị triệt
Trang 3315
tiêu chỉ sau vài bước Khi đó làm cho mô hình không thể ọc đượ h c những phụ thuộc xa và bị ảnh hưởng đến kết quả ọ h c và dự đoán.
Exploding gradient (bùng nổ đạo hàm): Vấn đề này x y ra khi nh ng giá tr cả ữ ị ủa ma tr n lậ ớn hơn 1 Khi xảy ra bùng n o hàm s ổ đạ ẽ làm cho chương trình học b d ng ị ừ
2.6 MÔ HÌNH LSTM (LONG SHORT - TERM MEMORY)
LSTM là mạng b nh ng n hộ ớ ắ ạn, đây là một d ng cạ ủa RNN nhưng đã khắc phục được các vấn đề ề Gradient mà RNN gặp ph v ải Mô hình này được giới thiệu b i ở Hochreiter và Schmidhuber (1997), sau nhiều l n c i tiầ ả ến đã được s d ng khá r ng ử ụ ộ rãi LSTM được thiết kế để khắc phục vấn đề phụ thu c xa của mô hình ộ RNN Đặc trưng của mô hình này là khả năng nhớ được thông tin trong thời gian là đặc tính cố định, không yêu cầu người dùng huấn luy n thì LSTM v n nhệ ẫ ớ được.
Hình 2.4 Cấu trúc m ng LSTM (Peng và nnk., 2020) ạ
LSTM hoạt động tương tự như mô hình RNN, tuy nhiên nó có kh ả năng ghi nhớ đầu vào trong thời gian dài hơn Bộ nhớ của mô hình LSTM có thể đọc, ghi và xóa thông tin ra kh i b ỏ ộ nhớ ủ c a nó khá giống như bộ nhớ c a m t chi c máy tính Và b ủ ộ ế ộ nhớ c a LSTM có khủ ả năng kiểm soát d a vào t m quan tr ng c a thông tin thông ự ầ ọ ủ qua tr ng sọ ố được gán vào mà nó sẽ đưa ra các quyết định lưu trữ hay xóa thông tin Điều này cho thấy rằng mô hình được hu n luyấ ện theo th i gian sờ ẽ có thể tự động đưa ra quyết định thông tin nào quan trọng và không quan trọng
Về cơ bản, mô hình LSTM có cấu trúc tương tự như RNN nhưng được c i ti n, ả ế khắc ph c các vụ ấn đề ề v gradient mà RNN mắc phải nh b nh dài hờ ộ ớ ạn hơn, giúp sử dụng nh ng dữ ữ liệu đầu vào trước đó để dự đoán cho những dữ liệu hi n t i và luôn ệ ạ giữ cho các gradient đủ độ d c Trong mô hình LSTM s có 3 c ng là input gate, ố ẽ ổ
Trang 3416
output gate và forget gate Ba c ng này có nhi m vổ ệ ụ đưa ra quyết định đưa đầu vào mới vào cổng input gate, lo i b thông tin không c n thiạ ỏ ầ ết ở cổng forget và đưa ra đầu ra cổng output gate ở
2.7 MÔ HÌNH CNN (CONVOLUTIONAL NEURAL NETWORK) CNN là mạng nơ ron tích chập, được biết đến là m t trong nh ng mô hình Deep ộ ữ Learning tiên tiến nh t Mô hình có thấ ể cho phép ngườ ử ụi s d ng xây d ng các h ự ệ thống tự động thông minh với độ chính xác đạt ở mức độ cao Ki n trúc c a CNế ủ N khá tương tự mô hình kết nối của các nơ ron trong não người Mô hình này thường được s d ng nhiử ụ ều trong phương diện nh n dậ ạng đối tượng trong ảnh tr c quan hoự ặc được xây dựng để ử x lý d u thông qua nhi u m ng ữ liệ ề ả
Hình 2.5 C u trúc m ng CNN (Phung & Rhee, 2018) ấ ạ
CNN sử d ng mụ ột lớp mạng đặc biệt có tên là Convolutional layer –Conv (lớp chập) có tác d ng làm giụ ảm độ phứ ạc t p c a hình ủ ảnh để ễ dàng hơn cho quá trình d xử lý nhưng vẫn không làm ảnh hưởng đến hiệu suất dự đoán của mô hình Ngoài Convolutional layer ra, mô hình CNN còn có một l p nớ ữa đó chính là pooling layer (lớp tổng h p), có tác d ng làm giảm tài nguyên cho phép tính, giải quyợ ụ ết được vấn đề overfitting khi th c hi n d ự ệ ự đoán của mô hình Nh ng giá tr c a l p poữ ị ủ ớ oling được đưa về một giá trị duy nhất Việc chuyển đổi này có thể làm kích thước đầu vào cho những lớp tiếp theo Do đó giảm tham s hố ọc là một điều cần thiết để tránh vấn đề mô hình b overfitting ị
Lớp cu i cùng c a CNN có tên là Fully connected layer (l p k t nố ủ ớ ế ối), được dùng để chuyển đổi các tính năng đã được trích xuất từ các lớp trước để hoàn thành được đầu ra sau cùng Các thông tin sau khi đi qua mỗi lớp và hàm kích hoạt (ReLU) sẽ
Trang 3517
tạo ra thông tin trừu tượng hơn cho những l p tiớ ếp sau đó Và thông qua quá trình train model, các l p s tớ ẽ ự động h c các giá trọ ị thể ệ hi n qua nh ng l p filter ữ ớ
Trang 3618
CHƯƠNG 3 PHƯƠNG PHÁP THỰC HIỆN 3.1 LƯU ĐỒ TỔNG QUAN QUÁ TRÌNH THỰC HIỆN ĐỀ TÀI Dưới đây là lưu đồ toàn bộ quá trình thực hiện đềtài:
Hình 3.1 Lưu đồ ổng quan các bướ t c thực hiện đề tài (Nhóm thực hiện) Đầu tiên, chúng tôi thực hiện quá trình Xây dựng mô hình đánh giá sự thành công của các ICO Quá trình này được th c hi n và coding b ng ngôn ng R, thao ự ệ ằ ữ tác trên Rstudio (trình bày cụ thể ở ph n 3.2) ầ Sau khi có được k t qu và l a ch n ế ả ự ọ được mô hình phân loại ICO tốt nhất, nhóm lựa chọn ra các coin thành công, có chỉ số ROI cao, có tiềm năng phát triển và được nhiều nhà đầu tư quan tâm đầu tư để tiếp tục th c hiự ện quá trình d ự đoán giá của các coin đó Quá trình Xây d ng mô hình d ự ự đoán giá các loại tiền điệ ửn t thành công và thực hiện coding b ng ngôn ng l p trình ằ ữ ậ Python, thao tác trực tiếp trên Google Colab (trình bày cụ thể ở phần 3.3)
3.2 PHƯƠNG PHÁP ĐÁNH GIÁ SỰ THÀNH CÔNG CỦA CÁC ICO 3.2.1 Thu thập whitepaper c a các ICO ủ
Chúng tôi th c hiự ện đánh giá sự thành công và không thành công c a 150 ICO ủ dựa vào y u tế ố ROI Dữ liệu được thu thập thủ công từ hai nguồn là coinmarketcap và cryptorank Trong đó cryptorank giúp thu th p thông tin v ROI c a các ICOậ ề ủ , coinmarketcap giúp thu th p các whitepaper Mậ ục đích cuối cùng là tìm cách phân tích các d án ICO có kh ự ả năng đạt đượ ợc l i nhuận, được đầu tư và niêm yết sau mỗi lần bán k t thúc trên các sàn giao dế ịch tiền điệ ửn t uy tín m t cách tộ ự động C ụ thể ở
Trang 3719
đây, chúng tôi thực hiện tìm kiếm các ICO trên sàn giao d ch điện tử Binance ị
Hình 3.2 T ng hổ ợp số lượng ICO đã thu thập (Nhóm thực hiện) Để đánh giá sự thành công của các ICO, chúng tôi chọn ra 62 ICO có ch số ỉ ROI đạt trên 100% từ đầu năm 2021 - 10/2021 Trong đó có những ICO đã và đang được nhiều nhà đầu tư quan tâm và mang lại lợi nhuận cao như Solana (SOL), Ethereum (ETH), IOTA, V i nh ng ICO không thành công, chúng tôi th c hi n ớ ữ ự ệ lựa ch n nh ng ICO có chọ ữ ỉ số ROI <30%, đã ngừng hoạt động ho c ít nhặ ất đến khoảng thời gian 10/2021 không mang l i lạ ợi nhuận cho những nhà đầu tư Số lượng ICO không thành công thu thập được là 48 ICO
Để nâng cao được mức độ chắc chắn cho quá trình phân tích và thực hi n text-ệ mining, chúng tôi t o thêm m t nhóm các ICO không thành công có ch s ROI <50% ạ ộ ỉ ố và ch s ỉ ố ATH ROI <100% Trong đó, ATH là chỉ s ố thể hiện giá tr cao nh t c a mị ấ ủ ột loại tài sản nào đó so với giá tr hi n t i c a chính nó N u mị ệ ạ ủ ế ức l i nhu n này <100%, ợ ậ tức là ICO không thành công
Tổng kết lại, chúng tôi đã thu thập được whitepaper của 62 ICO thành công và 88 ICO không thành công D a trên s phân loự ự ại cơ bản này, ti p t c th c hi n quá ế ụ ự ệ trình text-mining để đánh giá sự thành công của các ICO.
3.2.2 Lưu đồ thực hiện text-mining đánh giá sự thành công các ICO Với mục đích là nghiên cứu để xây dựng được mô hình phân lo i các ICO ra ạ thành 2 loại thành công và không thành công, chúng tôi đã tham khảo nhi u nghiên ề cứu về phân loại t các bài nghiên cừ ứu trước đây Cuối cùng, chúng tôi phát hiện các thuật toán v ề text-classification hay text-mining là kỹ thuật hợp lý để có th ể tiến hành
Trang 3820
phân tích các whitepaper đã thu thập được Dưới đây là lưu đồ xây d ng cho mô hình ự text-mining:
Hình 3.3 Lưu đồ thực hiện đánh giá sự thành công c a các ICO (Nhóm thủ ực hiện) Dựa vào các dữ liệu là các whitepaper được phân loại theo ROI đã thu thập được, v ề cơ bản chúng ta đã biết được các ICO nào thành công hay không thành công Bước tiếp theo, chúng tôi sẽ đưa những whitepaper đó vào mô hình text mining để -thực hi n x lý d ệ ử ữ liệu phi cấu trúc và l y ma tr n s t ấ ậ ố ừ các whitepaper để làm thông tin cho các thuật toán:
Bước đầu tiên của quy trình text-mining là đọc dữ liệu data và xử lý dữ liệu Chúng tôi ti n hành chuy n 150 file whitepaper ế ể ở d ng pdf sang dạ ạng text để mô hình có thể đọc hiểu được
Tiếp theo, chúng tôi th c hi n x lý ti n dự ệ ử ề ữ liệu Đây là một bước quan tr ng, ọ giúp cho dữ liệu đầu vào được “sạch” hơn, quá trình huấn luyện mô hình cũng hiệu quả hơn Ở bước này chúng tôi th c hi n lo i b nh ng tự ệ ạ ỏ ữ ừ không có ý nghĩa, cụ thể là lo i b các m o t , t k t h p, gi i tạ ỏ ạ ừ ừ ế ợ ớ ừ, đạ ừi t , URLs, chuy n hóa t t c các tể ấ ả ừ ở nhiều thì trở v thành t g c Ví dề ừ ố ụ các từ “singing” hay “sings” sẽ được chuyển về dạng t gừ ốc là “sing” Bước này s giúp cho quá trình hu n luy n mô hình tẽ ấ ệ ốt hơn, không ảnh hưởng đến hi u su ệ ất.
Chúng tôi th c hi n t o mô hình bag of words (mô hình Term Document ự ệ ạ Matrix) Khan và nnk (2013) cho r ng bag of word là m t mô hình túi tằ ộ ừ được s ử dụng trong lĩnh vực phân loại văn bản, nhằm để biểu diễn các từ trong văn bản một
Trang 3921
cách đơn giản phục vụ việc truy v n thông tin khi hu n luy n các thu t toán Cấ ấ ệ ậ ụ thể là s n hành t o m t c t cho m i t và m t hàng cho mẽ tiế ạ ộ ộ ỗ ừ ộ ỗi whitepaper Bước này s ẽ chuyển đổi văn bản sang dạng định lượng để có thể phân tích từ kho dữ liệu có sẵn, loại bỏ sự thưa thớt trong d u và t o mô hình túi t ữ liệ ạ ừ Salman và Obaida (2021) đã đưa ra kết luận rằng mô hình bag of word được sử dụng trong vấn đề xử lý tiền dữ liệu hay mã hóa văn bản sẽ giúp các thuật toán đưa ra kết qu sát v i th c t ả ớ ự ế hơn C ụ thể, vi c t o mô hình này th c ch t là t o m t ma trệ ạ ự ấ ạ ộ ận thưa thớt, giúp lọc đi những thuật ng ít xu t hi n trong ma tr n, tữ ấ ệ ậ ừ đó giúp quá trình huấn luy n mô hình s cho ệ ẽ ra kết quả dự báo chính xác hơn.
Sau khi d ữ liệu đã được “làm sạch”, tiếp tục th c hiự ện dán nhãn “successful” và “unsuccessful” cho dữ liệu (“thành công” và “không thành công”) Dữ liệu cũng được chia thành 2 ph n, 70% là training set, t c là dầ ứ ữ liệu dùng để hu n luyấ ện mô hình, 30% là testing set, t c là dứ ữ liệu dùng để ể ki m tra lại quá trình huấn luy n 70% data ệ đó sẽ đưa vào 2 thuật toán là KNN và Naive Bayes để thực hi n phân loệ ại Mỗi thuật toán sẽ có cách phân loại khác nhau, từ đó chọn ra thuật toán nào hoạt động tốt nhất Bước cuối cùng là đưa qua ma trận confusion (ma trận hỗn loạn) để xem xét hiệu su t c a các thu t toán Thông qua ma tr n s có thấ ủ ậ ậ ẽ ể so sánh được k t qu cế ả ủa quá trình dự đoán thông qua quá trình thực nghi m so v i k t quệ ớ ế ả thự ế Sau đó là c t đưa 30% testing set vào để kiểm tra lại và thu về kết quả cuối cùng Ở bước này s ẽ kết luận được mô hình nào là tốt nhất, mang lạ ếi k t quả kh quan nhả ất
3.2.3 Cấu hình phần cứng huấn luyện thu t toán ậ
Để thực hi n xây d ng và hu n luy n các mô hình Text-mining (KNN và Naive ệ ự ấ ệ Bayes), chúng tôi quyết định l a ch n s dự ọ ử ụng các thư viện của R để triển khai các mô hình trên Quá trình th c nghiự ệm được th c hi n v i RStudio m t cự ệ ớ – ộ hương trình có môi trường phát triển tích hợp cho R Chúng tôi sử dụng phiên bản RStudio 2022.02.2+485 trên Laptop Intel core i3, RAM 4GB để thực hiện xây d ng các mô ự hình trên
3.2.4 Xây d ng thu t toán KNN ự ậ Khai báo các thư viện cần thi t ế
Để tiến hành xây dựng thuật toán text-mining nói chung và KNN nói riêng ta phải cài đặt các các thư viện để hỗ trợ trong quá trình chạy dữ liệu Một số thư viện
Trang 4022
cần phải cài đặt trước khi th c hiự ện các bước training và test dữ liệu bao g m: ồ class, datasets.load NLP pdftools, , , plyr và tm
RStudio ph c v cho vi c thụ ụ ệ ực hiện các source code ngôn ng R không có chữ ức năng đọc hiểu được dạng file pdf Do đó các file whitepaper ở dạng pdf ần phải c chuyển sang d ng ạ text để có thể thực hiện các công đoạn xây d ng thu t toán ti p ự ậ ế theo Để có thể thực hiện việc chuyển dữ liệu sang dạng text ần khai báo 2 folder , c chứa whitepaper c a các ICO không thành công và thành công thông qua dòng code ủ dest_sucessful và dest_unsucessful, sau đó mới thực hiện việc chuyển đổi dạng file của dữ liệu
Hình 3.4 Source code chuyển đổ ữ liệi d u sang d ng text (Nhóm thạ ực hiện) Mặc dù đã chuyển đổi các whitepaper sang dạng file text, nhưng để thuật toán KNN có th ể đọc được những dữ liệu đó thì ta cần cài đặt một công c h ụ ỗ trợ việc đọc hiểu các file này đó chính là xpdf-tools-win-4.03
Hình 3.5 Source code s d ng xpdf-ử ụ tools-win-4.03 đọc dữ liệu (Nhóm thực hiện) Tiến hành cài đặt các tham số
Sau khi đã chuyển đổi các whitepaper sang dạng text, ta chỉ định duới dạng các tham s và ti n hành t o m t biố ế ạ ộ ến pathname để có th truy cể ập được v i các dớ ữ liệu whitepaper đã được lưu trữ trong máy tính để có th c hiự ện các bước x lý ti n d ử ề ữ liệu văn bản sau đó