Dưới đây là một sốthư viện được sử dụng để xử lý dữ liệu trong đề tài này: - Numpy: cung cấp rất nhiều tính năng hữu ích cho các phần operations
trong n-arrays & matrics trong Python. Thư viện này cung cấp khả năng vector hóa các vận hành về toán trong type array NumPy, giúp cải thiện hiệu suất và theo đó là tốc độ execution
- Pandas: Pandas là 1 package Python được thiết kếđể làm việc với dữ liệu đơn giản, trực quan, được “gắn nhãn” và có liên hệ với nhaụ Pandas là công cụ hoàn hảo để tinh chỉnh và làm sạch dữ liệụ Pandas được thiết kế hỗ trợ cho các thao tác, tập hợp và visualize dữ liệu
- Matplotlib: Một core package của SciPy Stack và 1 thư viện
Python khác được xây dựng riêng cho việc tạo ra các visualizations mạnh mẽ, đơn giản là Matplotlib
- Scikit-learn: Scikits là các packages bổ sung của SciPy Stack
được thiết kế cho các chức năng chuyên biêt như xử lý ảnh và hỗ trợ Machine Learning. Riêng với mảng Machine Learning, một trong những
22 ưu điểm nổi bật của các packages này là scikit-learn. Package được xây dựng trên nền tảng của SciPy và tận dụng các operations về toán.
- Tensorflow: Do các developer của Google phát triển, TensorFlow
là thư viện nguồn mở của graphs computations thuộc luồng dữ liệu,
thích hợp với Machine Learning. TensorFlow đáp ứng các requirement
cao cấp trong môi trường Google đểtrain Neural Networks và thư viện
kế nhiệm của DistBelief - 1 hệ thống Machine Learning dựa trên Neural Networks. Tuy nhiên, TensorFlow không chỉ sử dụng cho mục đích khoa học trong Google mà có thể áp dụng trong các dự án thực tế.