top of page

Web scrapping, ¿qué es y por qué todas las empresas deberían saber hacerlo?

En el 2023, aproximadamente, el 71% de la población tendrá un teléfono móvil y el 66% estará conectado a internet [1].


 

Trata de pensar en una sola empresa que no tenga ningún dato tuyo. Para la mayoría eres por lo menos, un cliente identificado por un número. Es por esto que los datos son tan importantes.

Actualmente existen casi 2.000 millones de sitios web, y todos nos ofrecen datos.


Imagen tomada de: octoparse.es

Ya sea que quieras saber los precios de tu competencia o que quieras hacer un análisis de las noticias en tu país. Debes saber extraer los datos de internet.


Comencemos por saber que las páginas web, la gran mayoría están formadas con un lenguaje de etiquetas llamado HTML, donde básicamente se indica, qué dice y cómo se ve el encabezado, el cuerpo, y cualquier otra parte de la página, haces divisiones, pones botones, listas, espacios para escribir, lo que sea. Todo está estructurado con HTML.


¿Quieres saber un pequeño truco? Si estás desde una computadora, puedes darle click derecho a esta página, luego en inspeccionar y te mostrará el HTML de esta página, y tú puedes simplemente cambiar los textos, tamaños, colores, lo que quieras, así puedes cambiar tu número de seguidores, tomar pantallazo y presumir con tus amigos. Pero claro, basta con actualizar la página para que se pierdan estos cambios.


En mi caso, la ventana se ve así:


Pero ahora que viste el HTML de esta página, ¿notas algo interesante? ¿O solo un montón de letras y códigos en chino?


Si quieres obtener datos de las páginas a veces puede bastar con mirar, buscar los patrones de los datos, por ejemplo, quieres guardar en un archivo todos los títulos de tu noticiero favorito, y notas que todos los títulos están en una sección que dice:


<div class='title'>Título interesante</div>

O que los precios de tu competencia están en su página en la sección que dice:


<div class='price'>250</div>

Con esto, ya tienes la mitad del trabajo de web scrapping hecho, encontraste el patrón.

Para lo que viene existen variedad de herramientas como librerías que te harán todo más fácil. Pueden por ejemplo, ayudarte a encontrar todos los textos en la página que tengan esa estructura que encontraste como patrón, y puedes agregarlo a un archivo o algo por el estilo. Y listo, puede usar esos datos para tus estudios, estadísticas, entre otras cosas.


Es una herramienta sencilla pero poderosa para aprovecharte de los datos de internet.


Si quieres ver algunos ejemplos de cómo comenzar a programar un web scrapper, te dejo mi repositorio de github, todo a un clone&run.


Referencias:

24 visualizaciones0 comentarios

Entradas recientes

Ver todo
Publicar: Blog2_Post
bottom of page