CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
2.8 Tổng quan về Python
2.8.1. Khái niệm
Ngơn ngữ Python là một ngơn ngữ lập trình mã nguồn mở, đa nền tảng, dễ học dễ đọc. Python có cấu trúc rõ ràng, thuận tiện cho người mới học lập trình. Vì thế nó được sử dụng rộng rãi.
Python là ngôn ngữ hỗ trợ nhiều mẫu đa lập trình khác nhau như: mệnh lệnh, lập trình hướng đối tượng, lập trình hàm, …và được dùng trong đa lĩnh vực: web, 3D CAD, …
30
2.8.2. Ưu điểm Python
Là ngôn ngữ dễ học đối với người mới bắt đầu
Khả năng mở rộng cao, thích hợp cho cả các dự án lớn và các chương trình nhỏ.
Di động, đa nền tảng.
Sử dụng được trên nhiều hệ điều hành từ Windows, UNIX, MS – DOS, Mac OS và Linux và các OS.
Ngôn ngữ lập trình Python có tốc độ xử lý cực nhanh.
2.8.3. Nhược điểm Python
Lập trình Python khơng có một số thuộc tính như: public, protected, khơng có vịng lặp do while
So với PHP, Python có tốc độ xử lý nhanh hơn, nhưng vẫn còn thua JAVA và C++.
2.8.4. Tại sao chọn Python
Trong ứng dụng tổng hợp tin tức, có hai bài tốn cần giải quyết là web
crawling (thu thập đường link các trang web tin tức) và web scraping (trích xuất nội dung dữ liệu từ các trang web). Python với bộ thư viện đồ sộ như scrapy,
Beautifulsoup4, Selenium sẽ giúp ích rất nhiều để hồn thành bài toán crawling và scraping.
2.8.5. Giới thiệu Beautifulsoup4
Beautiful Soup là một gói Python để phân tích cú pháp các tài liệu HTML và XML (bao gồm cả việc có đánh dấu khơng đúng định dạng, tức là các thẻ khơng đóng, nên được đặt tên theo tag soup). Nó tạo một cây phân tích cú pháp cho các trang được phân tích cú pháp có thể được sử dụng để trích xuất dữ liệu từ HTML, rất hữu ích cho việc tìm kiếm trên web.
31