Python es un lenguaje open source de propósito general, pero gracias al desarrollo de potentes librerías de analítica, procesamiento de datos y modelización predictiva se ha convertido en el principal lenguaje de programación utilizado para proyectos de Data Science, junto con R.
Python es un lenguaje de programación interpretado, orientado a objetos, fácil de instalar y de utilizar, que cuenta con el soporte de una gran comunidad.
Librerías de Python para Data Science
Estas son las librerías de Python más utilizadas para Data Science:
- SciPy es una colección de paquetes para tratamiento matemático, científico y de ingeniería.
- NumPy es subpaquete de SciPy para procesamiento numérico y de strings, registros y objetos. Permite manipular con eficiencia grandes arrays multidimensionales de registros y matrices.
- Pandas es una librería, también incluída en SciPy, que proporciona estructuras de datos y herramientas de análisis y manipulación de datos, muy utilizada en la fase de preparación de los datos
- Matplotlib es una librería para creación de gráficas 2D.
- Scikit-learn es una librería construída sobre SciPy, con utilidades de aprendizaje automático y data mining que implementa algoritmos de regresión, clasificación, clusterización y reducción de dimensionalidad.