CƠ SỞ LÝ THUYẾT 2.1, Ngôn ngữ lập trình
R là một ngôn ngữ lập trình và môi trường phần mềm chuyên dụng cho tính toán và đồ họa thống kê, được phát triển từ ngôn ngữ lập trình S với cảm hứng từ Scheme Được sáng tạo bởi Ross Ihaka và Robert Gentleman tại Đại học Auckland, New Zealand, R đã thu hút sự ủng hộ và tham gia phát triển từ nhiều nhà nghiên cứu thống kê và toán học trên toàn thế giới Hiện nay, R được duy trì và phát triển bởi R Development.
Đội ngũ cốt lõi đảm nhận vai trò phát triển ngôn ngữ, với tên gọi được hình thành từ chữ cái đầu của hai tác giả Robert Gentleman và Ross Ihaka, đồng thời cũng là một trò chơi chữ từ tên S.
Ngôn ngữ R đã trở thành tiêu chuẩn de facto trong lĩnh vực thống kê, phản ánh sự phát triển mạnh mẽ của phần mềm thống kê Là phần mềm miễn phí mã nguồn mở, R cung cấp nhiều công cụ hỗ trợ cho phân tích dữ liệu, khám phá tri thức và khai mỏ dữ liệu R dễ học và cho phép phát triển nhanh các ứng dụng tính toán xác suất thống kê Là một phần của dự án GNU, mã nguồn của R được phát hành theo Giấy phép công cộng GNU và có sẵn cho nhiều hệ điều hành khác nhau Mặc dù sử dụng giao diện dòng lệnh, R cũng có một số giao diện đồ họa người dùng hỗ trợ.
R đã trở thành một công cụ phổ biến trong phân tích dữ liệu, được ngày càng nhiều nhà khoa học và toán học sử dụng Trong tương lai, R có thể thay thế các phần mềm thống kê đắt tiền như SPSS, trở thành lựa chọn hàng đầu cho phân tích thống kê.
R là một ngôn ngữ thông dịch, cho phép bạn chạy code mà không cần đến compiler Điều này giúp việc viết và phát triển code trở nên đơn giản và dễ dàng hơn.
Trong ngôn ngữ lập trình R, mọi phép tính đều có thể thực hiện trên các vector mà không cần sử dụng vòng lặp Ví dụ, khi bạn muốn tăng mỗi phần tử trong một mảng lên +1, nếu không sử dụng vector, bạn sẽ phải lặp qua từng phần tử và thực hiện n phép +1 cho n phần tử Tuy nhiên, khi lưu mảng vào vector, bạn chỉ cần thực hiện một phép +1 duy nhất, giúp tối ưu hóa hiệu suất và tiết kiệm thời gian.
Ngôn ngữ lập trình R là công cụ quan trọng trong lĩnh vực sinh học, di truyền học và thống kê dữ liệu Với khả năng hoàn thành bất kỳ thuật toán nào nhờ tính chất turing-complete, R mang lại sự linh hoạt và sức mạnh trong việc phân tích và xử lý dữ liệu phức tạp.
Python là ngôn ngữ lập trình bậc cao đa năng, được Guido van Rossum phát triển và ra mắt lần đầu vào năm 1991 Với thiết kế dễ đọc, dễ học và dễ nhớ, Python trở thành lựa chọn lý tưởng cho người mới bắt đầu Cấu trúc rõ ràng và hình thức sáng sủa của Python giúp người dùng viết mã lệnh với số lần gõ phím tối thiểu.
Python là một ngôn ngữ lập trình hoàn toàn động với cơ chế cấp phát bộ nhớ tự động, tương tự như các ngôn ngữ như Perl, Ruby, Scheme, Smalltalk và Tcl Ngôn ngữ này được phát triển trong một dự án mã nguồn mở, dưới sự quản lý của tổ chức phi lợi nhuận Python Software Foundation.
Python ban đầu được phát triển để hoạt động trên hệ điều hành Unix, nhưng đã mở rộng ra nhiều nền tảng khác như MS-DOS, Mac OS, OS/2, Windows và Linux Dù có sự đóng góp của nhiều cá nhân, Guido van Rossum vẫn là tác giả chính của Python và giữ vai trò quan trọng trong việc định hướng phát triển của ngôn ngữ này.
2.1.2.2, Tính năng chính của Python
Python là một ngôn ngữ lập trình đơn giản và dễ học, với cú pháp rõ ràng, giúp lập trình viên dễ dàng đọc và viết mã hơn so với các ngôn ngữ khác như C++, Java hay C# Ngôn ngữ này tập trung vào việc tìm ra giải pháp thay vì chú trọng vào cú pháp, với tính tự nhiên của mã giả là một trong những ưu điểm nổi bật Điều này cho phép lập trình viên tập trung vào việc giải quyết vấn đề thay vì bận tâm về ngôn ngữ lập trình.
Python là một ngôn ngữ lập trình miễn phí và mã nguồn mở, cho phép người dùng không chỉ sử dụng mà còn tùy chỉnh mã nguồn của các phần mềm và chương trình viết bằng Python Sự phát triển và nâng cấp thường xuyên từ cộng đồng là một trong những yếu tố chính giúp Python trở thành ngôn ngữ lập trình mạnh mẽ.
Khả năng di chuyển của các chương trình Python cho phép chúng chạy mượt mà trên nhiều nền tảng khác nhau như Windows, macOS và Linux mà không cần thay đổi.
Python hỗ trợ khả năng mở rộng và nhúng, cho phép người dùng tích hợp dễ dàng các đoạn mã từ C, C++ và các ngôn ngữ khác vào mã Python Điều này mang lại cho lập trình viên những tính năng vượt trội và khả năng scripting mà nhiều ngôn ngữ lập trình khác khó có thể đạt được.
Ngôn ngữ Python mang đến sự tiện lợi cho lập trình viên nhờ vào khả năng thông dịch cấp cao, giúp họ không phải lo lắng về việc quản lý bộ nhớ hay dọn dẹp dữ liệu thừa như trong C/C++ Khi thực thi, Python tự động chuyển đổi mã nguồn thành ngôn ngữ máy tính, tạo điều kiện thuận lợi cho việc phát triển ứng dụng.
TRIỂN KHAI PHÂN TÍCH DỮ LIỆU 3.1, Quy trình phân tích
Khi du lịch toàn cầu, bạn thường ghé thăm những địa điểm nổi tiếng dựa trên gợi ý từ báo mạng hoặc kinh nghiệm của người đi trước Tuy nhiên, có thể gặp rủi ro hoặc sự khác biệt so với mong đợi Bài viết này sẽ giúp bạn tìm kiếm những điểm đến an toàn và nổi tiếng, đảm bảo chuyến du lịch của bạn trở nên thú vị và an toàn hơn.
Thu thập dữ liệu và công cụ thu thập dữ liệu:
Nguồn dữ liệu được sử dụng trong bài viết này bao gồm mạng xã hội Twitter và hai trang web uy tín là thetravelmagazine.net và theguardian.com Dữ liệu từ hai trang web này được thu thập bằng ngôn ngữ lập trình Java trên nền tảng Eclipse và sau đó tiến hành phân tích để rút ra những thông tin quan trọng.
Buớc 1: Mỗi trang web lấy 100 link bài báo liên quan đến du lịch
Lấy link bằng code python và lưu dưới dạng file csv rồi chuyển sang file txt
Hình 3 1 Code lấy link trang web
Hình 3 2 Code lấy link dưới dạng file csv
Bước 2: Truy cập bài báo trên trang => View source
Hình 3 3 Source web thetravelmagazine.net
Hình 3 4 Source web theguardian.com
Bước 3: Viết source code lấy dữ liệu trên eclipse, lấy dữ liệu theo 2 class “td-post- content” và “content article-body”
Hình 3 5 Code lấy dữ liệu trên eclipse của thetravelmagazine.net
Hình 3 6 Code lấy dữ liệu trên eclipse trên theguardian.com
Dữ liệu sau khi lấy về:
Hình 3 7 Nội dung các bài báo trên thetravelmagazine.net
Hình 3 8 Nội dung các bài báo trên theguardian.com
Bước 4: Lọc lấy các địa điểm xuất hiện trong nội dung bài báo
Hình 3 9 Kết quả các địa điểm trong bài báo b Phân tích kết quả
Kết quả thu được bộ dữ liệu 3848 địa điểm
Nhóm đã sử dụng excel để thống kê các địa điểm và sắp xếp theo thứ tự giảm dần số lượt nhắc đến
Chúng tôi thực hiện chỉnh sửa một số sai sót và kết quả tạo ra được bộ dữ liệu các địa điểm và số lượt được nhắc đến
Hình 3 10 Thống kê các địa điểm du lịch trong các bài báo bằng excel
Hình 3 11 Kết quả các địa điểm được lặp lại nhiều nhất
Bước 5: Sử dụng R để wordcloud dữ liệu và tiến hành vẽ biểu đồ những địa điểm được nhắc tới nhiều nhất
Code R – wordcloud bộ dữ liệu
Hình 3 12 Code R – wordcloud bộ dữ liệu
Hình 3 13 Wordcloud bộ dữ liệu
Chúng tôi tiến hành export ra file PDF để tiện lưu lại và phục vụ quá trình phân tích tiếp theo
Hình 3 14 Kết quả wordcloud các địa điểm
Có thể dễ dàng nhận thấy những địa điểm được nhắc đến nhiều nhất sau khi wordcloud bộ dữ liệu thu được
Sử dụng excel tiến hành vẽ biểu đồ top các địa điểm được nhắc đến nhiều nhất
Hình 3 15 Biểu đồ top địa điểm được nhắc đến nhiều nhất
Biểu đồ độ phủ của 5 quốc gia được nhắc đến nhiều nhất
Hình 3 16 Biểu đồ độ phủ của 5 quốc gia được nhắc đến nhiều nhất
Từ bộ dữ liệu và thông tin thu được sau khi tiến hành wordcloud, chúng tôi lọc lấy
10 nước được nhắc đến nhiều nhất và tiến hành lấy Tweet về các địa điểm đó
Từ các biểu đồ trên có thể nhận thấy được những địa điểm được mọi người quan nhất, trong đó UK được nhắc đến nhiều nhất với 46%
3.1.3, Thực chứng mức độ đánh giá của 10 địa điểm hàng đầu:
UK London Europe Ireland Britain France Gatwick Atlantic England Heathrow America Island
Top các địa điểm được nhắc đến nhiều nhất
10% Độ phủ của 5 nước được nhắc đến nhiều nhất
UK Ireland Britain France America a Lấy dữ liệu thu thập được trên twitter tiến hành phân độ tích cực tiêu cực từ tweet
Lấy dữ liệu từ Twitter bằng ngôn ngữ python trên Google Colab:
Lấy 100 tweet của 10 nước có tầng số xuất hiện nhiều nhất trên các bài báo liên quan đến du lịch
Bước 1: Lấy API Twitter Để thiết lập các API, đăng nhập tài khoản của bạn tại Twiter và truy cập https://apps.twitter.com/app/new
Hình 3 17 Bước 1 Lấy API Twitter Đồng ý với Điều khoản và điều kiện rồi và nhấp vào “Tạo ứng dụng Twitter của bạn”
Hình 3 18 Bước 2 lấy API Twitter
Twiter sẽ thông báo các khoá API kết nối Lưu lại Consumer Key (Key API) và Consumer Secret cẩn thận để sử dụng sau này
Hình 3 19 Bước 3 lấy API Twitter
Bước 2: Sử dụng Google Colab với ngôn ngữ Python để lấy bộ dữ liệu Tweet về các địa điểm
Hình 3 21 Bộ dữ liệu thu được từ Twitter
Hình 3 22 Dữ liệu thu được
Bước 3: Thống kê lại những ý tích cực và tiêu cực
Chúng tôi đã tiến hành làm sạch dữ liệu và sửa chữa các lỗi phát sinh trước khi đánh giá bộ dữ liệu, sử dụng ngôn ngữ lập trình Eclipse.
- Code làm sạch dữ liệu:
Hình 3 23 Code làm sạch dữ liệu
Hình 3 24 Dữ liệu sau khi làm sạch
- Code đánh giá và thống kê:
Hình 3 25 Code đánh giá và thống kê
Hình 3 26 Kết quả đánh giá America
Hình 3 27 Kết quả đánh giá Australia
Hình 3 28 Kết quả đánh giá Brazil
Hình 3 29 Kết quả đánh giá Canada
Hình 3 30 Kết quả đánh giá France
Hình 3 31 Kết quả đánh giá Iceland
Hình 3 32 Kết quả đánh giá India
Hình 3 33 Kết quả đánh giá Spain
Hình 3 34 Kết quả đánh giá UK b Vẽ biểu đồ mức độ đánh giá của top 10 nước được nhắc đến trong bộ dữ liệu
Từ bộ dữ liệu thu được, chúng tôi đã thống kê mức đánh giá về 10 địa điểm được nhắc đến nhiều nhất, sử dụng thang đo mức độ tích cực và tiêu cực trên thang điểm 4 Các số điểm đánh giá cụ thể được lập ra nhằm phản ánh chính xác sự đánh giá của người dùng.
Với kết quả sau khi thu được, chúng tôi sử dụng công cụ Excel để lập bảng biểu thống kê, nhận thấy kết quả như sau:
Hình 3 35 Kết quả tổng hợp đánh giá tích cực tiêu cực
Từ bảng dữ liệu sau khi được thống kê, chúng tôi vẽ biểu đồ thực chứng mức độ đánh giá cho 10 địa điểm được nhắc đến nhiều nhất
Hình 3 36 Biểu đồ mức độ tích cực, tiêu cực c Chứng minh và đánh giá
Theo thống kê, trong số 10 địa điểm được nhắc đến nhiều nhất, có 30% nhận được đánh giá tốt, 61% đánh giá trung bình và chỉ 9% đánh giá kém Điều này cho thấy những địa điểm thu hút sự quan tâm của du khách thường có tiềm năng du lịch cao, được đánh giá tích cực, và sở hữu môi trường du lịch lành mạnh, hấp dẫn.
Biểu đồ mức độ tích cực, tiêu cực Đánh giá 0.0 (Chưa tốt) Đánh giá 1.0 (Tạm ổn) Đánh giá trên 1.0 (Tốt)
Dựa trên dữ liệu thu thập và phân tích, chúng tôi đã tổng hợp một danh sách những điểm đến tuyệt vời dành cho khách du lịch.
3.2, Kết quả thu được và tạo bộ danh sách các điểm đến:
Tạo danh sách những địa điểm du lịch hấp dẫn trên toàn cầu bằng cách sử dụng dữ liệu từ các trang web du lịch và đánh giá của người dùng trên Twitter.
Hình 3 37 Danh sách 10 điểm đến
10 địa điểm nên đến 10 đnước nên đến
Quần đảo Atlantic Europe Aberdovey Ireland Ballycastle Britain
Caribbean AtlanticCharleston EnglandFairbourne Heathrow