Data Science N006 Extracción de datos de una fuente externa (Formato Excel) Resguardo en Excel

in Develop Spanish3 years ago (edited)

Cordiales Saludos

Ya hemos dado los primeros pasos para la generación (creación) de datos para hacer nuestros primeros ejercicios, con los cuales hemos podidos hacer Series, Data Frames para leerlos en los formatos .csv y excel. También aprendimos como guardarlos para su futuro uso.

Hemos avanzado bastante y ahora corresponde trabajar con Datos Reales, que a partir de esta publicación iremos buscando en internet donde encontraremos bastante material para trabajar. En ésta y en las próximas publicaciones profundizaremos en la Extracción de Datos.

Extract, Transform and Load / Extraer, Ttransformar y Cargar

Aquí tenemos la definición de wikipedia.

"Extract, Transform and Load («extraer, transformar y cargar», frecuentemente abreviado ETL) es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio." Fuente


python_pandas2.png

En esta ocasión tomaré los datos de la publicación: Daily Twitter Data Reports as of October 7, 2021 / 2,856 hive tweets of the day De la cuenta @hive-data. Que mejor forma de aprender con datos de nuestra propia comunidad.

Comencemos

Al final de la publicación de @hive-data, nos dan el link del Reporte. A continuación le damos click a dicho link y nos llevará a una hoja de excel.


6_aa.png

Escogí en esta oportunidad compartirlo (ya que es púbico) dentro de mi DRIVE de la siguiente manera. Otra forma es descargarlo en tu computador y luego subirlo a tu DRIVE.


6_a.png

Así creamos el acceso directo a este archivo


6_d.png

Verifiquemos lo que hicimos.


reciente.png

Ya en publicaciones anteriores abordamos la conexión de nuestro DRIVE con nuestro cuaderno de trabajo.


importDRIVE.png

Revisamos si podemos entrar a nuestro DRIVE y ubicamos el acceso directo que acabamos de hacer.


separador001.png

Conectando Google Sheets

Lo nuevo que haremos es conectar Google Sheets, que es la forma de google compartir las hojas de excel en la nube. Al escribir estas lineas de código nos generará una clave que debemos validar como hicimos en la publicación pasada para conectar nuestro DRIVE.

from google.colab import auth
auth.authenticate_user()
import gspread
from oauth2client.client import GoogleCredentials
gc = gspread.authorize(GoogleCredentials.get_application_default())

Luego abrimos la hoja de excel e importamos todos los valores

hive = gc.open('Twitter Hive Data for October 2021').sheet1
rows = hive.get_all_values()
df = pd.DataFrame.from_records(rows)
df


Screenshot 2021-10-08 121701.png

Aquí el Data Frame importado


Screenshot 2021-10-08 122043.png

Resguardo de información - Para trabajar con nuestro archivo, no con la fuente de datos.

Crearemos un un nuevo archivo de excel para nuestro uso, el cual nos servirá para trabajar

df.to_excel('/content/drive/MyDrive/Colab Notebooks/Data_Science/hive.xlsx')


Screenshot 2021-10-08 122452.png

Después de creado, entremos a nuestro DRIVE y lo abrimos para revisarlo


6_f.png

A continuación eliminaremos la primera fila (recuadro rojo) y la primera columna (recuadro verde).
OBSERVACIÓN: Este paso corresponde a transformar no lo abordo con código porque el interes de esta publicación es solo extraer los datos de una fuente externa. Más adelante en la transformación de datos veremos como se limpian los datos, como quitamos los datos que no nos interesa, etc.


separador001.png

Llamada de nuestro archivo excel

leer = pd.read_excel('/content/drive/MyDrive/Colab Notebooks/Data_Science/hive.xlsx')
leer


Screenshot 2021-10-08 124123.png


separador001.png

Recomiendo tomar en cuenta el primer registro y el último. Tomar una captura de pantalla o guardarlo. Ya que cuando limpiemos los datos estemos seguros donde comienza y donde termina la información.


6_g.png

.

6_h.png

Notemos que más adelante debemos eliminar los registros que exceden nuestra información por estar vacios.


separador001.png

Por último cremos un nuevo Data Frame para hacer nuestros análisis.


Screenshot 2021-10-08 124854.png

Todo lo tratado en esta publicación está en este JupyterNotebook

Importancia de trabajar con nuestro archivo creado

Con nuestro archivo creado podemos trabajar sin comprometer la información original. Al crear nuestro archivo, tenemos en nuestro poder una copia del original y una copia creada por nosotros.

Importante: En este caso la información es pública y de seguro ya está replicada y resguarda. Éste archivo público solo permite lectura y no su modificación. Pero tomemos el caso donde se hace un estudio estadístico en un pueblo y la persona que vació la información la tiene solo en un Pen Drive, y nos lo facilita para vaciar la informacíon y cometemos el grave error de trabajar con los datos originales directo del pen drive, si sucede algo (que siempre va a suceder) perderemos toda la información. Recordemos "Si puede ocurrir, ocurrirá" repasemos la Ley de Murphy.


Screenshot 2021-10-08 124854.png


separador001.png

Publicaciones de esta serie:

Data Science N000. Preparando todo!
Data Science N001. Series
Data Science N002. Series a partir de Diccionarios
Data Science N003 - DataFrame con Diccionarios
Data Science N004 Recopilar datos de una tabla en excel y el formato .csv
Data Science N005 Resguardar datos con formato de excel y formato .csv


separador001.png

Mi twitter
Rafael Aquino

Sort:  


The rewards earned on this comment will go directly to the person sharing the post on Twitter as long as they are registered with @poshtoken. Sign up at https://hiveposh.com.