Una de las primeras cosas o posiblemente la primer cosa que tenemos que hacer en un proceso de anális o inferencia, es conocer el conjunto de datos al que nos efrentamos, incluso aunque sea un conjunto de datos que nosotros hayamos creado existe mucha información que podemos extraer y que posiblemente no hemos tomado en cuenta.
Un análisis de datos exploratorio (EDA por sus siglás en inglés) calcula diversas estadísticas acerca del conjunto de datos a fin de tomar mejores decisiones en la etapa de anális o aprandizaje máquina. Algunas estadísticas comunes son la distribución de de la población de estudio (pacientes) asi como las etiquetas (enfermedades) y correlaciones entre ellas. En muchos casos realizar un EDA previo permitirá disminuir el tiempo de desarrollo debido a que se seleccionaran algoritmos y estrategias adecuadas. Por otro lado, un buen EDA también permite adquirir información sobre las limitaciones de los algoritmos propuestos. De forma general podemos seguir el flujo propuesto Cox.

En este notebook se realiza un EDA del conjunto de datos NIH chest X-ray dataset con interés particular en los datos recolectados de neumonía. Debido a que en el siguiente estudio se realizá un sistema para la detección de neumonía de utilizando técnicas de aprendizaje profundo.
Debido a que utilizo código en python el resto del artículo lo puedes ver y descargar desde github: https://github.com/irvingvasquez/neumonitor/blob/main/EDA.ipynb