1. Trang chủ
  2. » Luận Văn - Báo Cáo

(TIỂU LUẬN) PHÂN TÍCH dữ LIỆU MẠNG xã hội và WEBSITE để xây DỰNG bộ DANH SÁCH NHỮNG địa điểm DU LỊCH TIỀM NĂNG và AN TOÀN

46 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Dữ Liệu Mạng Xã Hội Và Website Để Xây Dựng Bộ Danh Sách Những Địa Điểm Du Lịch Tiềm Năng Và An Toàn
Tác giả Trần Hải Hoàng, Tô Nguyễn Nhật Duy, Nguyễn Mỹ Kỳ, Cao Văn Tâm, Nguyễn Thị Linh Tâm
Người hướng dẫn ThS. Đặng Nhân Cách
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Kinh tế luật
Thể loại tiểu luận
Năm xuất bản 2019
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 46
Dung lượng 3,44 MB

Cấu trúc

  • CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1, Ngôn ngữ lập trình (11)
  • CHƯƠNG 3: TRIỂN KHAI PHÂN TÍCH DỮ LIỆU 3.1, Quy trình phân tích (21)
  • CHƯƠNG 4: KẾT LUẬN VÀ ĐÁNH GIÁ 4.1, Tóm tắt nội dung và kết quả của đề tài (41)
    • II. Quy định làm việc của nhóm (43)
    • III. Bảng phân công nhiệm vụ (44)
    • IV. Tổng kết (45)

Nội dung

CƠ SỞ LÝ THUYẾT 2.1, Ngôn ngữ lập trình

R là một ngôn ngữ lập trình và môi trường phần mềm chuyên dụng cho tính toán và đồ họa thống kê, được phát triển từ ngôn ngữ lập trình S với cảm hứng từ Scheme Được sáng tạo bởi Ross Ihaka và Robert Gentleman tại Đại học Auckland, New Zealand, R đã thu hút sự ủng hộ và tham gia phát triển từ nhiều nhà nghiên cứu thống kê và toán học trên toàn thế giới Hiện nay, R được duy trì và phát triển bởi R Development.

Đội ngũ cốt lõi đảm nhận vai trò phát triển ngôn ngữ, với tên gọi được hình thành từ chữ cái đầu của hai tác giả Robert Gentleman và Ross Ihaka, đồng thời cũng là một trò chơi chữ từ tên S.

Ngôn ngữ R đã trở thành tiêu chuẩn de facto trong lĩnh vực thống kê, phản ánh sự phát triển mạnh mẽ của phần mềm thống kê Là phần mềm miễn phí mã nguồn mở, R cung cấp nhiều công cụ hỗ trợ cho phân tích dữ liệu, khám phá tri thức và khai mỏ dữ liệu R dễ học và cho phép phát triển nhanh các ứng dụng tính toán xác suất thống kê Là một phần của dự án GNU, mã nguồn của R được phát hành theo Giấy phép công cộng GNU và có sẵn cho nhiều hệ điều hành khác nhau Mặc dù sử dụng giao diện dòng lệnh, R cũng có một số giao diện đồ họa người dùng hỗ trợ.

R đã trở thành một công cụ phổ biến trong phân tích dữ liệu, được ngày càng nhiều nhà khoa học và toán học sử dụng Trong tương lai, R có thể thay thế các phần mềm thống kê đắt tiền như SPSS, trở thành lựa chọn hàng đầu cho phân tích thống kê.

R là một ngôn ngữ thông dịch, cho phép bạn chạy code mà không cần đến compiler Điều này giúp việc viết và phát triển code trở nên đơn giản và dễ dàng hơn.

Trong ngôn ngữ lập trình R, mọi phép tính đều có thể thực hiện trên các vector mà không cần sử dụng vòng lặp Ví dụ, khi bạn muốn tăng mỗi phần tử trong một mảng lên +1, nếu không sử dụng vector, bạn sẽ phải lặp qua từng phần tử và thực hiện n phép +1 cho n phần tử Tuy nhiên, khi lưu mảng vào vector, bạn chỉ cần thực hiện một phép +1 duy nhất, giúp tối ưu hóa hiệu suất và tiết kiệm thời gian.

Ngôn ngữ lập trình R là công cụ quan trọng trong lĩnh vực sinh học, di truyền học và thống kê dữ liệu Với khả năng hoàn thành bất kỳ thuật toán nào nhờ tính chất turing-complete, R mang lại sự linh hoạt và sức mạnh trong việc phân tích và xử lý dữ liệu phức tạp.

Python là ngôn ngữ lập trình bậc cao đa năng, được Guido van Rossum phát triển và ra mắt lần đầu vào năm 1991 Với thiết kế dễ đọc, dễ học và dễ nhớ, Python trở thành lựa chọn lý tưởng cho người mới bắt đầu Cấu trúc rõ ràng và hình thức sáng sủa của Python giúp người dùng viết mã lệnh với số lần gõ phím tối thiểu.

Python là một ngôn ngữ lập trình hoàn toàn động với cơ chế cấp phát bộ nhớ tự động, tương tự như các ngôn ngữ như Perl, Ruby, Scheme, Smalltalk và Tcl Ngôn ngữ này được phát triển trong một dự án mã nguồn mở, dưới sự quản lý của tổ chức phi lợi nhuận Python Software Foundation.

Python ban đầu được phát triển để hoạt động trên hệ điều hành Unix, nhưng đã mở rộng ra nhiều nền tảng khác như MS-DOS, Mac OS, OS/2, Windows và Linux Dù có sự đóng góp của nhiều cá nhân, Guido van Rossum vẫn là tác giả chính của Python và giữ vai trò quan trọng trong việc định hướng phát triển của ngôn ngữ này.

2.1.2.2, Tính năng chính của Python

Python là một ngôn ngữ lập trình đơn giản và dễ học, với cú pháp rõ ràng, giúp lập trình viên dễ dàng đọc và viết mã hơn so với các ngôn ngữ khác như C++, Java hay C# Ngôn ngữ này tập trung vào việc tìm ra giải pháp thay vì chú trọng vào cú pháp, với tính tự nhiên của mã giả là một trong những ưu điểm nổi bật Điều này cho phép lập trình viên tập trung vào việc giải quyết vấn đề thay vì bận tâm về ngôn ngữ lập trình.

Python là một ngôn ngữ lập trình miễn phí và mã nguồn mở, cho phép người dùng không chỉ sử dụng mà còn tùy chỉnh mã nguồn của các phần mềm và chương trình viết bằng Python Sự phát triển và nâng cấp thường xuyên từ cộng đồng là một trong những yếu tố chính giúp Python trở thành ngôn ngữ lập trình mạnh mẽ.

Khả năng di chuyển của các chương trình Python cho phép chúng chạy mượt mà trên nhiều nền tảng khác nhau như Windows, macOS và Linux mà không cần thay đổi.

Python hỗ trợ khả năng mở rộng và nhúng, cho phép người dùng tích hợp dễ dàng các đoạn mã từ C, C++ và các ngôn ngữ khác vào mã Python Điều này mang lại cho lập trình viên những tính năng vượt trội và khả năng scripting mà nhiều ngôn ngữ lập trình khác khó có thể đạt được.

Ngôn ngữ Python mang đến sự tiện lợi cho lập trình viên nhờ vào khả năng thông dịch cấp cao, giúp họ không phải lo lắng về việc quản lý bộ nhớ hay dọn dẹp dữ liệu thừa như trong C/C++ Khi thực thi, Python tự động chuyển đổi mã nguồn thành ngôn ngữ máy tính, tạo điều kiện thuận lợi cho việc phát triển ứng dụng.

TRIỂN KHAI PHÂN TÍCH DỮ LIỆU 3.1, Quy trình phân tích

Khi du lịch toàn cầu, bạn thường ghé thăm những địa điểm nổi tiếng dựa trên gợi ý từ báo mạng hoặc kinh nghiệm của người đi trước Tuy nhiên, có thể gặp rủi ro hoặc sự khác biệt so với mong đợi Bài viết này sẽ giúp bạn tìm kiếm những điểm đến an toàn và nổi tiếng, đảm bảo chuyến du lịch của bạn trở nên thú vị và an toàn hơn.

Thu thập dữ liệu và công cụ thu thập dữ liệu:

Nguồn dữ liệu được sử dụng trong bài viết này bao gồm mạng xã hội Twitter và hai trang web uy tín là thetravelmagazine.net và theguardian.com Dữ liệu từ hai trang web này được thu thập bằng ngôn ngữ lập trình Java trên nền tảng Eclipse và sau đó tiến hành phân tích để rút ra những thông tin quan trọng.

Buớc 1: Mỗi trang web lấy 100 link bài báo liên quan đến du lịch

Lấy link bằng code python và lưu dưới dạng file csv rồi chuyển sang file txt

Hình 3 1 Code lấy link trang web

Hình 3 2 Code lấy link dưới dạng file csv

Bước 2: Truy cập bài báo trên trang => View source

Hình 3 3 Source web thetravelmagazine.net

Hình 3 4 Source web theguardian.com

Bước 3: Viết source code lấy dữ liệu trên eclipse, lấy dữ liệu theo 2 class “td-post- content” và “content article-body”

Hình 3 5 Code lấy dữ liệu trên eclipse của thetravelmagazine.net

Hình 3 6 Code lấy dữ liệu trên eclipse trên theguardian.com

Dữ liệu sau khi lấy về:

Hình 3 7 Nội dung các bài báo trên thetravelmagazine.net

Hình 3 8 Nội dung các bài báo trên theguardian.com

Bước 4: Lọc lấy các địa điểm xuất hiện trong nội dung bài báo

Hình 3 9 Kết quả các địa điểm trong bài báo b Phân tích kết quả

Kết quả thu được bộ dữ liệu 3848 địa điểm

Nhóm đã sử dụng excel để thống kê các địa điểm và sắp xếp theo thứ tự giảm dần số lượt nhắc đến

Chúng tôi thực hiện chỉnh sửa một số sai sót và kết quả tạo ra được bộ dữ liệu các địa điểm và số lượt được nhắc đến

Hình 3 10 Thống kê các địa điểm du lịch trong các bài báo bằng excel

Hình 3 11 Kết quả các địa điểm được lặp lại nhiều nhất

Bước 5: Sử dụng R để wordcloud dữ liệu và tiến hành vẽ biểu đồ những địa điểm được nhắc tới nhiều nhất

Code R – wordcloud bộ dữ liệu

Hình 3 12 Code R – wordcloud bộ dữ liệu

Hình 3 13 Wordcloud bộ dữ liệu

Chúng tôi tiến hành export ra file PDF để tiện lưu lại và phục vụ quá trình phân tích tiếp theo

Hình 3 14 Kết quả wordcloud các địa điểm

Có thể dễ dàng nhận thấy những địa điểm được nhắc đến nhiều nhất sau khi wordcloud bộ dữ liệu thu được

Sử dụng excel tiến hành vẽ biểu đồ top các địa điểm được nhắc đến nhiều nhất

Hình 3 15 Biểu đồ top địa điểm được nhắc đến nhiều nhất

Biểu đồ độ phủ của 5 quốc gia được nhắc đến nhiều nhất

Hình 3 16 Biểu đồ độ phủ của 5 quốc gia được nhắc đến nhiều nhất

Từ bộ dữ liệu và thông tin thu được sau khi tiến hành wordcloud, chúng tôi lọc lấy

10 nước được nhắc đến nhiều nhất và tiến hành lấy Tweet về các địa điểm đó

Từ các biểu đồ trên có thể nhận thấy được những địa điểm được mọi người quan nhất, trong đó UK được nhắc đến nhiều nhất với 46%

3.1.3, Thực chứng mức độ đánh giá của 10 địa điểm hàng đầu:

UK London Europe Ireland Britain France Gatwick Atlantic England Heathrow America Island

Top các địa điểm được nhắc đến nhiều nhất

10% Độ phủ của 5 nước được nhắc đến nhiều nhất

UK Ireland Britain France America a Lấy dữ liệu thu thập được trên twitter tiến hành phân độ tích cực tiêu cực từ tweet

Lấy dữ liệu từ Twitter bằng ngôn ngữ python trên Google Colab:

Lấy 100 tweet của 10 nước có tầng số xuất hiện nhiều nhất trên các bài báo liên quan đến du lịch

Bước 1: Lấy API Twitter Để thiết lập các API, đăng nhập tài khoản của bạn tại Twiter và truy cập https://apps.twitter.com/app/new

Hình 3 17 Bước 1 Lấy API Twitter Đồng ý với Điều khoản và điều kiện rồi và nhấp vào “Tạo ứng dụng Twitter của bạn”

Hình 3 18 Bước 2 lấy API Twitter

Twiter sẽ thông báo các khoá API kết nối Lưu lại Consumer Key (Key API) và Consumer Secret cẩn thận để sử dụng sau này

Hình 3 19 Bước 3 lấy API Twitter

Bước 2: Sử dụng Google Colab với ngôn ngữ Python để lấy bộ dữ liệu Tweet về các địa điểm

Hình 3 21 Bộ dữ liệu thu được từ Twitter

Hình 3 22 Dữ liệu thu được

Bước 3: Thống kê lại những ý tích cực và tiêu cực

Chúng tôi đã tiến hành làm sạch dữ liệu và sửa chữa các lỗi phát sinh trước khi đánh giá bộ dữ liệu, sử dụng ngôn ngữ lập trình Eclipse.

- Code làm sạch dữ liệu:

Hình 3 23 Code làm sạch dữ liệu

Hình 3 24 Dữ liệu sau khi làm sạch

- Code đánh giá và thống kê:

Hình 3 25 Code đánh giá và thống kê

Hình 3 26 Kết quả đánh giá America

Hình 3 27 Kết quả đánh giá Australia

Hình 3 28 Kết quả đánh giá Brazil

Hình 3 29 Kết quả đánh giá Canada

Hình 3 30 Kết quả đánh giá France

Hình 3 31 Kết quả đánh giá Iceland

Hình 3 32 Kết quả đánh giá India

Hình 3 33 Kết quả đánh giá Spain

Hình 3 34 Kết quả đánh giá UK b Vẽ biểu đồ mức độ đánh giá của top 10 nước được nhắc đến trong bộ dữ liệu

Từ bộ dữ liệu thu được, chúng tôi đã thống kê mức đánh giá về 10 địa điểm được nhắc đến nhiều nhất, sử dụng thang đo mức độ tích cực và tiêu cực trên thang điểm 4 Các số điểm đánh giá cụ thể được lập ra nhằm phản ánh chính xác sự đánh giá của người dùng.

Với kết quả sau khi thu được, chúng tôi sử dụng công cụ Excel để lập bảng biểu thống kê, nhận thấy kết quả như sau:

Hình 3 35 Kết quả tổng hợp đánh giá tích cực tiêu cực

Từ bảng dữ liệu sau khi được thống kê, chúng tôi vẽ biểu đồ thực chứng mức độ đánh giá cho 10 địa điểm được nhắc đến nhiều nhất

Hình 3 36 Biểu đồ mức độ tích cực, tiêu cực c Chứng minh và đánh giá

Theo thống kê, trong số 10 địa điểm được nhắc đến nhiều nhất, có 30% nhận được đánh giá tốt, 61% đánh giá trung bình và chỉ 9% đánh giá kém Điều này cho thấy những địa điểm thu hút sự quan tâm của du khách thường có tiềm năng du lịch cao, được đánh giá tích cực, và sở hữu môi trường du lịch lành mạnh, hấp dẫn.

Biểu đồ mức độ tích cực, tiêu cực Đánh giá 0.0 (Chưa tốt) Đánh giá 1.0 (Tạm ổn) Đánh giá trên 1.0 (Tốt)

Dựa trên dữ liệu thu thập và phân tích, chúng tôi đã tổng hợp một danh sách những điểm đến tuyệt vời dành cho khách du lịch.

3.2, Kết quả thu được và tạo bộ danh sách các điểm đến:

Tạo danh sách những địa điểm du lịch hấp dẫn trên toàn cầu bằng cách sử dụng dữ liệu từ các trang web du lịch và đánh giá của người dùng trên Twitter.

Hình 3 37 Danh sách 10 điểm đến

10 địa điểm nên đến 10 đnước nên đến

Quần đảo Atlantic Europe Aberdovey Ireland Ballycastle Britain

Caribbean AtlanticCharleston EnglandFairbourne Heathrow

Ngày đăng: 24/12/2023, 14:44

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN