Todas las colecciones
Octoparse 101
Lección 7: ¡Venga! Construye tu primera tarea de raspar
Lección 7: ¡Venga! Construye tu primera tarea de raspar
Actualizado hace más de una semana

Esta es la última lección de la serie de introducción. Esperamos que te hayas divertido aprendiendo algo nuevo y útil. Para colocar todas las piezas del rompecabezas juntas, hagamos un resumen con un tutorial paso a paso sobre cómo construir una tarea de raspado desde cero. Te guiaremos a través de todo el proceso, desde ingresar la URL hasta descargar los datos extraídos. Vamos a verlo juntos.

Para este ejemplo, extraeremos información de productos y precios de eBay.com.

1. Empezar una nueva tarea

mceclip1.png

2. Deja que Octoparse haga la detección automática

Tan pronto como se cargue la página web en el navegador integrado, selecciona "Detectar automáticamente los datos de la página web" en el panel de Tips. Octoparse comenzará a detectar datos de páginas web de inmediato. Puedes consultar la barra de progreso y esperar pacientemente a que termine.

detecci_n_autom_tica.gif

3. Vista previa de sus datos

Una vez que se completa el proceso de detección automática, continúa y verifica tus datos en la sección de vista previa. Puedes hacer doble clic en el nombre del campo para cambiar el nombre o hacer clic en

para eliminar los que no son necesarios.

vista_previa_de_datos.gif

4. Guardar la configuración de detección automática

Ahora, vuelve a "Tips" y comprueba la configuración.

4.1 ¿Quieres desplazarte hacia abajo para cargar más datos?

→ "No, no es necesario desplazarse por esta página web". así que desmarca la casilla para desplazarse hacia abajo.

mceclip2.png

4.2. ¿Quieres raspar más páginas?→

"Sí", así que marca la casilla de paginación.

mceclip4.png

4.3. ¿Tienes seleccionado el botón de Página Siguiente correcto

→ "Sí", marca y se resaltará.

mceclip5.png

Una vez que hayas completado todas las acciones en "Tips", haz clic en "Crear flujo de trabajo" y espera pacientemente mientras Octoparse genera automáticamente el flujo de trabajo. Es importante asegurarte de que cada uno de los ajustes esté configurado correctamente, ya que estos son los ajustes exactos que utilizará Octoparse para generar la tarea de raspado.

mceclip6.png

Es posible que desees extraer más información de la página de detalles del producto, por lo que debemos establecer un paso más en el flujo de trabajo para garantizar que Octoparse pueda hacer clic en el enlace de cada producto en la página automáticamente.

4.4 Haz clic en "Hacer clic en los vínculos para scrapear las páginas enlazadas".

mceclip7.png

Elige la opción "Hacer clic en un campo de datos extraídos" y selecciona "Título_URL1" en el menú desplegable y haz clic en "Confirmar".

mceclip8.png

Observa cómo se agrega un paso adicional al flujo de trabajo que es el paso "Hacer clic en URL en la lista".

mceclip9.png

5. Seleccionar datos de la página de detalles

Ahora llegarás a la página de detalles. Una vez más, selecciona "Detectar automáticamente los datos de la página web" en el panel de Tips. El proceso de detección automática se iniciará automáticamente. Puedes cambiar entre los resultados detectados hasta que hayas seleccionado los datos correctos.

pagina_de_detalles.gif

Haz clic en "Crear flujo de trabajo" y el flujo de trabajo actualizado debería ser así:

mceclip12.png

También puedes seleccionar manualmente la información en la página web para rasparla:

6. Limpiar los datos extraídos

Al observar los datos extraídos, hay algo que nos gustaría cambiar. Por ejemplo, nos gustaría deshacernos de la preposición "desde" en el campo "Ubicación", por lo tanto, necesitamos usar "Reformatear datos" para hacerlo.

Haz clic en el icono "Más" en la esquina superior derecha y selecciona "Reformatear datos".

mceclip13.png

Luego haz clic en "Agregar paso" - "Reemplazar". Necesitamos deshacernos de "desde" y asegurarnos de que todas las filas puedan coincidir con él que tenemos que reemplazar "desde" con nada, ya que este GIF se muestra a continuación.

reformatear_datos.gif

Tips!

  • Consulta más técnicas de limpieza de datos aquí.

7. Prueba y ejecuta la tarea

La tarea de raspado ahora está completa. Como se mencionó anteriormente, siempre se recomienda que pruebes el flujo de trabajo paso a paso, asegurándote de que cada paso haga lo que debe hacer, por ejemplo, si hace clic en "Ir a la página web", debería cargar la página web en el navegador integrado.

Inicia el flujo de trabajo y haz clic en todos los pasos de arriba a abajo y de adentro hacia afuera para los pasos anidados (como la paginación). Observa si la página web responde como se esperaba. La metodología de prueba detallada se incluye aquí, no dudes en consultarla.

ejecutar_manualmente.gif

8. Programar y ejecutar

Ahora que tu tarea está completamente probada, puedes extraer los datos mucho más rápido ejecutando la tarea en la nube o también puedes programarla para que se ejecute de forma recurrente.

Para iniciar una ejecución en la nube, haz clic en "Ejecutar" y selecciona "Ejecutar tarea en la nube".

Para programar la tarea, haz clic en "Ejecutar" y selecciona "Programar tarea (nube)".

mceclip0.jpg

Elige la frecuencia deseada y designa un día y una hora para la ejecución.

mceclip15.png

9. Exporta tus datos

Ve al Dashboard para encontrar tu tarea y haz clic en abrir estado de la tarea para ver los datos extraídos. Haz clic en "Exportar datos" en la parte inferior y elige el formato en el que deseas descargar los datos.

mceclip16.png

Tips!

Consulta este tutorial paso a paso para saber cómo descargar los datos extraídos.

¡Felicitaciones! Has hecho un buen trabajo al llegar hasta aquí y has trabajado para convertirte en experto en web scraping. Esperamos que este no sea el final de tu aprendizaje, sino el comienzo de tu viaje de raspado web.

Si tienes alguna pregunta, ya sea relacionada con la tarea, con el web scraping o con el servicio, déjanos ayudarte. El equipo de Octoparse estamos encantados de ser parte de tu experiencia de raspado web.

¿Ha quedado contestada tu pregunta?