1. Trang chủ
  2. » Luận Văn - Báo Cáo

báo cáo đồ án phân tích dữ liệu với r đề tài phân tích dữ liệu tiền điện tử

34 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích dữ liệu tiền điện tử
Tác giả Nguyễn Phước
Người hướng dẫn Hồ Quốc Dũng
Trường học ĐẠI HỌC HUẾ
Chuyên ngành Phân Tích Dữ Liệu với R
Thể loại Đồ án
Năm xuất bản 2021 - 2022
Thành phố Thừa Thiên Huế
Định dạng
Số trang 34
Dung lượng 7,63 MB

Cấu trúc

  • 1.1 Crawl data là gì? (5)
  • 1.2 web Crawler là gì? (5)
  • 1.3 Quá trình crawl data c a trình thu th p ủ ậ (5)
  • 1.4 T i sao c n t i u và Cách t i u quá trình crawl d li u ạ ầ ố ư ố ư ữ ệ (5)
  • 2.1 Cài đ t Scrapy ặ (6)
  • 2.2 Cài đ t Selenium ặ (6)
  • 2.3 Cài đ t ChromeDriver ặ (6)
  • 2.4 ti n hành l y d li u ế ấ ữ ệ (7)
  • 2. Ti n hành phân tích d li u trên: ế ữ ệ ở (12)

Nội dung

Biểu đồ thứ 4:Thể hiện xu hướng của đồng Bitcoin Biểu đồ thứ 5: Thể hiện xu hướng của đồng Ethereum... Th a Thiênừ Hu ,ế ngày thángnăm 2021 Ký và ghi rõ h vàọtên Ký và ghi rõ h vàọtên.

Crawl data là gì?

Crawl dataKlà quá trình thu th p d li u c a công c tìm ki m nh m tìm n i dung m i ho c ậ ữ ệ ủ ụ ế ằ ộ ớ ặ c p nh t nh ng thay đ i trên trang cũ Nh ng đ nh d ng đậ ậ ữ ổ ữ ị ạ ược thu th p d li u g m: html, ậ ữ ệ ồ hình nh, video…ả

Crawl data là m t trong nh ng bộ ữ ước ph bi n và đ u tiên nh t khi ta b t đ u l y d li u ổ ế ầ ấ ắ ầ ấ ữ ệ xu ngố

web Crawler là gì?

Web Crawler (Trình thu thập dữ liệu web) là một tập hợp các bot internet có chức năng thu thập dữ liệu qua World Wide Web Crawler được các công cụ tìm kiếm lập trình sử dụng nhằm mục đích lập chỉ mục Trình thu thập thông tin còn được gọi là spider, spiderbot… Nhưng phổ biến nhất vẫn là Googlebot.

Quá trình crawl data c a trình thu th p ủ ậ

Khi b n n m các khái ni m c b n thì không quá khó đ hi uạ ắ ệ ơ ả ể ể Kquá trình thu th p d li u Quáậ ữ ệ trình này được di n ra nh sau:ễ ư

1.Crawling đượ ắ ầc b t đ u khi công c tìm ki m (Search Engine – SE) phát hi n m t liên ụ ế ệ ộ k t.ế

2.D a vào liên k t, SE sẽ kh i đ ng trình thu th p web đ thu th p thông tin c a trang ự ế ở ộ ậ ể ậ ủ đích.

3 Trong trang đích này, chúng sẽ phát hi n nh ng liên k t m i Crawler sẽ nhân đôi đ ệ ữ ế ớ ể quá trình thu th p trang hi n t i v n đậ ệ ạ ấ ược di n ra v i 1 lễ ớ ượt crawl data Trình thu th p web ậ còn l i sẽ sang trangđích c a các liên k t khác.ạ ủ ế

4.Quá trình này đượ ặc l p đi l p l i liên t c.ặ ạ ụ

Tuy nhiên, việc này sẽ tốn rất nhiều tài nguyên của SE (quá tải lưu lượng và dung lượng) Do đó, Search Engine cập nhật những Nguyên tắc cho hoạt động của Web crawler (thuật toán).

Nguyên t c mà b n c n quan tâm nh t trong bài vi t này là: N u trang có h n 1 liên k t đ n ắ ạ ầ ấ ế ế ơ ế ế cùng 1 trang đích, trình thu th p webậ Kch thu th p m t l n t link đ u tiên nó phát hi n.ỉ ậ ộ ầ ừ ầ ệ

T i sao c n t i u và Cách t i u quá trình crawl d li u ạ ầ ố ư ố ư ữ ệ

T i u crawl dataố ư Klà quá trình giúp trình thu th p web l y đậ ấ ược nhi u thông tin nh t trong ề ấ m t l n cào.ộ ầ

Quá trình này vô cùng quan tr ng vì:ọ

 Giúp nâng cao hi u su t trong m t l n thu th p d li u c a Web crawler.ệ ấ ộ ầ ậ ữ ệ ủ

 T o đi u ki n đ công c tìm ki m hi u n i dung t t h nạ ề ệ ể ụ ế ể ộ ố ơ

 Công c tìm ki m sẽ đánh giá ch t lụ ế ấ ượng n i dung và th c hi n quá trình l p ch m c.ộ ự ệ ậ ỉ ụ

2 S d ng ph ử ụ ươ ng pháp Scrapy v i Selenium đ l y d li u: ớ ể ấ ữ ệ

Cài đ t Scrapy ặ

Scrapy là m t th vi n Python độ ư ệ ượ ạc t o ra đ quét và xây d ng các trình thu th p d li u ể ự ậ ữ ệ web Nó nhanh chóng, đ n gi n và có th đi u hơ ả ể ề ướng qua nhi u trang web mà không m t ề ấ nhi u công s cề ứ. Đ cài đ t th vi n, ta ch c n vào Window -> gõ Cmd(comand prompt)ể ặ ư ệ ỉ ầ

Sau đó ta gõ l nh này:ệ

Cài đ t Selenium ặ

M t trang web bao g m các ph n t web khác nhau, ch ng h n nh h p văn b n, h p ki m, ộ ồ ầ ử ẳ ạ ư ộ ả ộ ể nút, v.v Ki m tra t đ ng hóa web bao g m vi c t đ ng hóa các tác v ph i th c hi n trên ể ự ộ ồ ệ ự ộ ụ ả ự ệ các ph n t web đó Selenium WebDriver là m t khung ki m tra t đ ng hóa d a trên web ầ ử ộ ể ự ộ ự ph bi n đổ ế ượ ử ục s d ng ch y u đ t đ ng hóa các tác v liên quan đ n ki m tra giao di n ủ ế ể ự ộ ụ ế ể ệ người dùng Web.

Selenium WebDriver không tương tác tr c ti p v i các ph n t web trên m t trang Seleniumự ế ớ ầ ử ộ WebDriver dành riêng cho trình duy t đóng vai trò là c u n i gi a t p l nh th nghi m và ệ ầ ố ữ ậ ệ ử ệ trình duy t web Selenium WebDriver là thành ph n chính giao ti p v i trình duy t web.ệ ầ ế ớ ệ Selenium WebDriver h tr h u h t các ngôn ng l p trình ph bi n đỗ ợ ầ ế ữ ậ ổ ế ược các nhà phát tri nể và th nghi m s d ng, c th là - Python, Java, C #, Ruby, v.v Nó h tr các h đi u hành ử ệ ử ụ ụ ể ỗ ợ ệ ề ph bi n nh Windows, Mac OS, Linux và Solaris.ổ ế ư

Mozilla Firefox là trình duy t web m c đ nh c a Selenium WebDriver.ệ ặ ị ủ Đ cài đ t Selenium, ta vào Command Prompt và gõ l nh này:ể ặ ệ

Cài đ t ChromeDriver ặ

đây, WebDriver là m t công c mã ngu n m trong m ng test t đ ng, cho phép các ng Ở ộ ụ ồ ở ả ự ộ ứ d ng web c a chúng ta có th ho t đ ng trên các trình duy t Nó cung c p các ch c năng ụ ủ ể ạ ộ ệ ấ ứ giúp chúng ta đi đ n các đ a ch web, nh p d li u đ u vào, x lý các code JavaScript, và r t ế ị ỉ ậ ữ ệ ầ ử ấ nhi u các thao tác mà ngề ười dùng h có th tác đ ng khác n a Và ChromeDriver là chính là ọ ể ộ ữ công c giúp WebDriver th c hi n các công vi c đó trên trình duy t Chrome.ụ ự ệ ệ ệ

1.KTruy c p đậ ường d n này đ đi đ n trang download c a ẫ ể ế ủ

ChromeDriver:Khttps://sites.google.com/a/chromium.org/chromedriver/downloads

2.K đây sẽ là danh sách các phiên b n c a ChromeDriver, t i b n nào cũng đỞ ả ủ ả ả ược nh ng mà ư nh đã nói trên, b n nên t i v b n m i nh t đư ở ạ ả ề ả ớ ấ ược làm to và đ m nh t nh dậ ấ ư ưới này:

3 Sau đó b n click vào linkạ K, nó sẽ đ a b n đ n m t trang khác nh dư ạ ế ộ ư ưới này B n sẽ l a ạ ự ch n m t b n tọ ộ ả ương ng v i h đi u hành trên máy cài đ t c a b n:ứ ớ ệ ề ặ ủ ạ

4 Ví d nh máy mình đang là Window thì mình sẽ th c hi n click ụ ư ự ệ vàoKKchromedriver_win32.zipHđ t i v cho máy c a mình.ể ả ề ủ

5 Sau khi t i v thành công, b n gi i nén ra, sẽ có m t file tên nh này:ả ề ạ ả ộ ư Kchromedriver.exe

ti n hành l y d li u ế ấ ữ ệ

D li u sẽ đữ ệ ượ ấ ởc l y trang https://coinmarketcap.com/

B t đ u chúng ta sẽ t o ra m t project đ có th cào d li u b ng CMD ắ ầ ạ ộ ể ể ữ ệ ằ python startproject ự python genspider [-t template]

Sau đó sẽ hi n ra project v i các thanh nh th nàyệ ớ ư ế

File đang được in đ m chính là file chính mà mình sẽ s d ngậ ử ụ

Các liên kết và trang web đích được trích xuất là những kho dữ liệu mà chúng tôi sẽ xử lý, sau đó đưa chúng vào các mục phù hợp của chúng Đây là phần cốt lõi, cách chúng tôi xử lý dữ liệu từ các trang web được thu thập Để làm được như vậy, ta cần kiểm tra các phần tử có trên trang https://coinmarketcap.com/?page Đây chính là trang web mà chúng ta cần thu thập dữ liệu.

Ti p đ n chúng ta sẽ truy c p ph n body c a d li u, đây là ph n ta c n cào d li u vế ế ậ ầ ủ ữ ệ ầ ầ ữ ệ ề

Ti p đ n ta sẽ tìm các th ch a các trế ế ẻ ứ ường d li u ti n đi n t mà mình mu n l yữ ệ ề ệ ử ố ấ

S d ng m t s cú pháp đ trích d n d li u t các trử ụ ộ ố ể ẫ ữ ệ ừ ường d li u ta mu n vữ ệ ố ề

Tinh ch nh d li u phù h pỉ ữ ệ ợ

Sau khi l y v và ta sẽ có k t qu n m đây:ấ ề ế ả ằ ở

Ch ươ ng II: Phân tích trên R

1 t ng quan phân tích d li u trên R ổ ữ ệ ở

D li u đữ ệ ượ ấ ừc l y t ph n code trênầ ở

Có rất nhiều thông tin có giá trị trong bảng giá tiền điện tử, bao gồm ngày và giờ cập nhật thông tin, xếp hạng tiền điện tử, tên tiền điện tử, ký hiệu, giá tiền, sự thay đổi giá trong vòng 24 giờ và 7 ngày, tổng giá trị thị trường, nguồn cung lưu hành, khối lượng giao dịch trong 24 giờ (bằng Coin và USD) và nguồn cung lưu hành hiện tại.

Ti n hành phân tích d li u trên: ế ữ ệ ở

Vẽ đ th d a trên th vi n ggplot2ồ ị ự ư ệ

- Đ th g m hai tr c: tr c tung là giá ti n hi n t i, tr c hoành là tên ti n đi n tồ ị ồ ụ ụ ề ệ ạ ụ ề ệ ử

- G m có 10 lo i đ ng ti n khác nhau (Binace Coin, Bitcoin, XRP….)ồ ạ ồ ề

- D a vào đ th ta có th th y đ ng ti n cao giá nh t là đ ng Binance Coin v i $620.68ự ồ ị ể ấ ồ ề ấ ồ ớ và th p nh t là đ ng Dogecoin v i $0.206ấ ấ ồ ớ

Tương t ta sẽ s d ng đ so sánh v i bi n ự ử ụ ể ớ ế g_marketCap và bi n b_nameế

- Đ th g m hai tr c: tr c tung là giá ti n hi n t i, tr c hoành là v n hóa th trồ ị ồ ụ ụ ề ệ ạ ụ ố ị ường có trong ở

- V n hóa th trố ị ường cao nh t r i vào đ ng bitcoin và th p nh t là r i vào đ ngấ ơ ồ ấ ấ ơ ồ Dogecoin

- G m có 10 lo i ti n khác nhauồ ạ ề Đ có th hình rõ h n, ta có th thêm m t s màu s c và thay đ i d ng bi u đ đ dể ể ơ ể ộ ố ắ ổ ạ ể ồ ể ễ phân tích h n, ta sẽ s d ng bi u đ Bar chartơ ử ụ ể ồ

- Bi u đ th hi n 10 đ ng ti n đi n t để ồ ể ệ ồ ề ệ ử ược tính t i ngày 21.12.2021ớ

- Bi u đ g m 10 c t th hi n 10 đ ng ti n khác nhauể ồ ồ ộ ể ệ ồ ề

- C t cao nh t đó chính là c t Binance Coin và c t th p nh t là c t Dogecoinộ ấ ộ ộ ấ ấ ộ

- Ngu n đồ ược trích d n t trang coinmarket.comẫ ừ

- T bi u đ ta có th th y đừ ể ồ ể ấ ược chênh l ch gi a các đ ng ti n r t caoệ ữ ồ ề ấ

Tương t ta cũng sẽ có đ thự ồ ị

- Bi u đ th hi n v n hóa th trể ộ ể ệ ố ị ường c a t ng đ ng ti n ti n t đủ ừ ồ ề ệ ử ượ ổc t ng h p đ nợ ế ngày 21.12.2021

- Lượng v n hóa th trố ị ường giao d ch nhi u nh t r i vào đ ng Bitcoin v iị ề ấ ơ ồ ớ

Ti p đ n ta sẽ s d ng l nh summary(Data) đ th ng kê mô t c a b d li uế ế ử ụ ệ ể ố ả ủ ộ ữ ệ

Ch ươ ng III: Phân tích trên Python

D li u đữ ệ ượ ấ ởc l y trên Kaggle: cryptocurrencypricehistory

Ngu n d li u g m các Data set đồ ữ ệ ồ ượ ổc t ng h p thành các file CSV g m các lo i ti n đi n t ợ ồ ạ ề ệ ử ph bi n hi n nay nh : Bitcoin, ổ ế ệ ư KBitcoin cash, Ethereum…

Các trường d li u đữ ệ ượ ử ục s d ng g m có:ồ

Open: Giá m c a vào ngày nh t đ nhở ử ấ ị

High: Giá cao nh t vào ngày nh t đ nhấ ấ ị

Close: Giá đóng c a vào ngày nh t đ nhủ ấ ị

Volume: Kh i giao d ch vào ngày nh t đ nhố ị ấ ị

Market cap: V n hóa th trố ị ường tính b ng USDằ

2 Phân tích d li u ti n đi n t : ữ ệ ề ệ ử

Jupyter notebook Đ u tiên ta sẽ th c hi n th ng kê mô t :ầ ự ệ ố ả

Khai báo m t s th vi n c n thi tộ ố ư ệ ầ ế

Chúng ta sẽ xem t ng quát d li u b ng l nhổ ữ ệ ằ ệ

Giá tr nh nh t c a t ng trị ỏ ấ ủ ừ ường d li uữ ệ

Giá tr l n nh t c a t ng trị ớ ấ ủ ừ ường d li uữ ệ Đ l ch chu n c a d li u:ộ ệ ẩ ủ ữ ệ Đ l ch chu n, hay đ l ch tiêu chu n là m t đ i lộ ệ ẩ ộ ệ ẩ ộ ạ ượng th ng kê mô t dùng đ đo m c đ ố ả ể ứ ộ phân tán c a m t t p d li u đã đủ ộ ậ ữ ệ ượ ậc l p thành b ng t n s Có th tính ra đ l ch chu n ả ầ ố ể ộ ệ ẩ b ng cách l y căn b c hai c a phằ ấ ậ ủ ương sai

Tính tương quan gi a giá cao và giá th p tron sàn giao d chữ ấ ị

Tương t v i d li u lo i ti n Ethereumự ớ ữ ệ ạ ề

Giá tr trung bình c a các c t ị ủ ộ

Ti p đ n ta sẽ s d ng công c phân tích trên visual Studioế ế ử ụ ụ ở

T i cái th vi n c n thi t đ s d ngả ư ệ ầ ế ể ử ụ

Sau đó ti n hành phân tích d li uế ữ ệ

Giá tr đóng trung bình cao nh t trong kho ng th i gian t tháng 3 năm 2013 đ n năm 2021-07-06 là ị ấ ả ờ ừ ế bao nhiêu?

- Qua bi u đ ta có th th y để ồ ể ấ ược giá tr đóng c a 24h đ ng Bitcoin chi m giá tr áp đ o cácị ử ở ồ ế ị ả th trị ường ti n khác, có th th y đề ể ấ ượ ực s kh ng khi p t giá tr đ ng ti n này, chênh l ch r tủ ế ừ ị ồ ề ệ ấ l n, h u nh nh ng đ ng ti n khác không có ch đ ng trong bi u đ này.ớ ầ ư ữ ồ ề ỗ ứ ở ể ồ

Kh i lố ượng giao d ch cao nh t trong m t ngày trong kho ng th i gian t tháng 3 năm 2013 đ n tháng 7 ị ấ ộ ả ờ ừ ế năm 2021 là bao nhiêu?

- D a vào bi u đ thì ta th y s lự ề ồ ấ ố ượng giao d ch cao nh t trong m t ngày trong kho ng th iị ấ ộ ả ờ gian này là đ ng bitcoin và đ ng Tetherồ ồ

: So sánh kh i lố ượng cao nh t trong m t ngày gi a tháng 3 năm 2013 và 2021-07-06 ấ ộ ữ

Biểu đồ thứ 4:Thể hiện xu hướng của đồng Bitcoin

Biểu đồ thứ 5: Thể hiện xu hướng của đồng Ethereum

Bi u đ th 6: Th hi n xu h ể ồ ứ ể ệ ướ ng c a đ ng Binnace Coin ủ ồ

Bi u đ th 7: Th hi n xu h ể ồ ứ ể ệ ướ ng c a đ ng Cardano ủ ồ

Bi u đ th 8: Th hi n xu h ể ồ ứ ể ệ ướ ng c a đ ng Telther ủ ồ

Bi u đ th 9: Th hi n xu h ể ồ ứ ể ệ ướ ng c a đ ng XRP ủ ồ

Bi u đ th 10: th hi n xu h ể ồ ứ ể ệ ướ ng c a đ ng Dogecoin ủ ồ

Bi u đ th 11: Th hi n xu h ể ồ ứ ể ệ ướ ng c a đ ng Dogecoin ủ ồ

Bi u đ th 12: Th hi n xu h ể ồ ứ ể ệ ướ ng c a đ ng Polkadot ủ ồ

Bi u đ th 13: Th hi n xu h ể ồ ứ ể ệ ướ ng c a đ ng Solana ủ ồ

Bi u đô th 14: Top 10 lo i ti n o và s so sánh gi a các lo i ti n v ể ứ ạ ề ả ự ữ ạ ề ề giá đóng c a ử

Trong năm 2017, thang đo Y c a log là thước đo phổ biến, cho thấy xu hướng giá trị đóng góp trung bình của ba loại tiền điện tử tăng hoặc giảm tương đồng Biểu đồ chứng minh mối quan hệ chặt chẽ giữa giá trị đóng góp trung bình của từng loại tiền điện tử Phân tích thêm dữ liệu xác nhận mối tương quan này.

Bi u đ th 15: so sánh c th 10 lo i ti n o t tr ể ồ ứ ụ ể ạ ề ả ừ ướ ớ c t i năm 2021

Bi u đ th 16: Bi u đ so sánhh c th 10 lo i ti n o đ ể ồ ứ ể ồ ụ ể ạ ề ả ượ c giao d ch t tr ị ừ ướ ớ c t i 2021

Bi u đ th 17: Giá tr v n hóa th tr ể ồ ứ ị ố ị ườ ng tính b ng USD tính t i ằ ớ th i đi m 2021 ờ ể

Sự tương quan chặt chẽ giữa giá trị đóng góp trung bình của người dùng và mức độ liên quan của nội dung họ tạo ra nhấn mạnh mối liên hệ giữa chất lượng nội dung và sự thành công của người đóng góp Xu hướng này cho thấy người dùng tạo ra nội dung có giá trị cao hơn có xu hướng thu hút được nhiều sự chú ý và tham gia hơn trên nền tảng.

Ki m tra đ o vănể ạ https://my.plagramme.com/openreport/6871540

Ngày đăng: 24/09/2024, 16:38

w