Skip to content

Latest commit

 

History

History
103 lines (59 loc) · 4.89 KB

README.md

File metadata and controls

103 lines (59 loc) · 4.89 KB

Web scraping con Python

En este módulo del Diplomado en Ciencia de Datos UC aprenderemos a implementar la técnica de extracción de datos conocida como web scraping usando la librería Beautiful Soup. Las sesiones serán en modalidad online, los días 10 y 17 de junio.

Preparación

Para realizar las actividades planificadas necesitarás las librerías request, beautifulsoup4 y pandas. Se pueden instalar desde PyPI con pip.

pip install beautifulsoup4
pip install requests
pip install pandas
pip install lxml

Si prefieres trabajar en Google Colab, no olvides agregar un signo de exclamación al inicio de cada línea para su instalación, es decir:

!pip install beautifulsoup4
!pip install requests
!pip install pandas
!pip install lxml

Esto le indica a Google Colab que ese no es código de Python, sino código que tiene que ejecutarse en la Terminal.

Si trabajas en Visual Studio Code, es necesario que crees un entorno virtual. Durante la primera clase mostraremos cómo hacerlo. También puedes revisar las indicaciones en este documento.

Atajos de teclado útiles

Los siguientes atajos de teclado serán útiles al explorar las páginas web que escrapearemos.

Acción Windows / Linux Mac
Ver el código fuente ctrl + u command + u
Abrir el panel de desarrollo F12
ctrl + shift + i
F12
option + command +i
Abrir el panel de desarrollo con la opción de selección activada ctrl + shift + c option/ctrl + command + c

Enlaces ejemplos

A lo largo de la sesión revisaremos algunos sitios web a modo de ejemplo o para discutir algunas ideas. Los compartiremos por el chat de Zoom y quedarán acá también como referencia.

🔗 Sitio web estático

🔗 Sitio web dinámico

🔗 Condiciones de uso

🔗 Licenciamiento y uso del contenido 1

🔗 Licenciamiento y uso del contenido 2

🔗 robots.txt

Actividades

Durante las dos sesiones del módulo realizaremos una serie de actividades para poner en práctica lo aprendido. Iremos escribiendo el código "en vivo" en la clase, por lo que el contenido de los archivos con código se irá actualizando a medida que escribamos en ellos.

Ejercicio 1: extraer datos de un sitio "mínimo"

🔗 Página web

📄 Código escrito en clases

Versión final del código

Ejercicio 2: el mismo ejercicio, pero ahora en un sitio de verdad

🔗 Página web

📄 Código escrito en clases

Versión final del código

Ejercicio 3: extraer tablas

🔗 Página web ejemplo 1 / Página web ejemplo 2

📄 Código escrito en clases

Ejercicio 4: descargar archivos a partir de enlaces extraídos

🔗 Página web

📄 Código escrito en clases

🖥️ Video sobre uso de try/except en nuestro código de descarga

Versión final del código

Ejercicio 5: demo selenium

🔗 Página web ejemplo a / Página web ejemplo b

📄 Código ejemplo a / Código ejemplo b

Recursos adicionales

Documentación librerías utilizadas

Beautiful Soup

Selenium