Tổng quan về Python

Một phần của tài liệu ĐỒ án ỨNG DỤNG TỔNG hợp TIN tức (Trang 39 - 41)

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

2.8 Tổng quan về Python

2.8.1. Khái niệm

Ngơn ngữ Python là một ngơn ngữ lập trình mã nguồn mở, đa nền tảng, dễ học dễ đọc. Python có cấu trúc rõ ràng, thuận tiện cho người mới học lập trình. Vì thế nó được sử dụng rộng rãi.

Python là ngôn ngữ hỗ trợ nhiều mẫu đa lập trình khác nhau như: mệnh lệnh, lập trình hướng đối tượng, lập trình hàm, …và được dùng trong đa lĩnh vực: web, 3D CAD, …

30

2.8.2. Ưu điểm Python

Là ngôn ngữ dễ học đối với người mới bắt đầu

Khả năng mở rộng cao, thích hợp cho cả các dự án lớn và các chương trình nhỏ.

Di động, đa nền tảng.

Sử dụng được trên nhiều hệ điều hành từ Windows, UNIX, MS – DOS, Mac OS và Linux và các OS.

Ngôn ngữ lập trình Python có tốc độ xử lý cực nhanh.

2.8.3. Nhược điểm Python

Lập trình Python khơng có một số thuộc tính như: public, protected, khơng có vịng lặp do while

So với PHP, Python có tốc độ xử lý nhanh hơn, nhưng vẫn còn thua JAVA và C++.

2.8.4. Tại sao chọn Python

Trong ứng dụng tổng hợp tin tức, có hai bài tốn cần giải quyết là web

crawling (thu thập đường link các trang web tin tức) và web scraping (trích xuất nội dung dữ liệu từ các trang web). Python với bộ thư viện đồ sộ như scrapy,

Beautifulsoup4, Selenium sẽ giúp ích rất nhiều để hồn thành bài toán crawling và scraping.

2.8.5. Giới thiệu Beautifulsoup4

Beautiful Soup là một gói Python để phân tích cú pháp các tài liệu HTML và XML (bao gồm cả việc có đánh dấu khơng đúng định dạng, tức là các thẻ khơng đóng, nên được đặt tên theo tag soup). Nó tạo một cây phân tích cú pháp cho các trang được phân tích cú pháp có thể được sử dụng để trích xuất dữ liệu từ HTML, rất hữu ích cho việc tìm kiếm trên web.

31

Một phần của tài liệu ĐỒ án ỨNG DỤNG TỔNG hợp TIN tức (Trang 39 - 41)

Tải bản đầy đủ (PDF)

(84 trang)