Esta es la última lección de la serie de introducción. Esperamos que te hayas divertido aprendiendo algo nuevo y útil. Para colocar todas las piezas del rompecabezas juntas, hagamos un resumen con un tutorial paso a paso sobre cómo construir una tarea de raspado desde cero. Te guiaremos a través de todo el proceso, desde ingresar la URL hasta descargar los datos extraídos. Vamos a verlo juntos.
Para este ejemplo, extraeremos información de productos y precios de eBay.com.
1. Empezar una nueva tarea
- Abre la aplicación Octoparse e ingresa la URL de destino (https://www.ebay.es/sch/i.html?_from=R40&_trksid=p2334524.m570.l1313&_nkw=IPHONE+13&_sacat=0&LH_TitleDesc=0&_odkw=wireless+earbuds&_osacat=0) en la barra de búsqueda. Haz clic en "Empezar" para crear una nueva tarea.
2. Deja que Octoparse haga la detección automática
Tan pronto como se cargue la página web en el navegador integrado, selecciona "Detectar automáticamente los datos de la página web" en el panel de Tips. Octoparse comenzará a detectar datos de páginas web de inmediato. Puedes consultar la barra de progreso y esperar pacientemente a que termine.
3. Vista previa de sus datos
Una vez que se completa el proceso de detección automática, continúa y verifica tus datos en la sección de vista previa. Puedes hacer doble clic en el nombre del campo para cambiar el nombre o hacer clic en para eliminar los que no son necesarios.
4. Guardar la configuración de detección automática
Ahora, vuelve a "Tips" y comprueba la configuración.
4.1 ¿Quieres desplazarte hacia abajo para cargar más datos? → "No, no es necesario desplazarse por esta página web". así que desmarca la casilla para desplazarse hacia abajo.
4.2. ¿Quieres raspar más páginas?→ "Sí", así que marca la casilla de paginación.
4.3. ¿Tienes seleccionado el botón de Página Siguiente correcto → "Sí", marca y se resaltará.
Una vez que hayas completado todas las acciones en "Tips", haz clic en "Crear flujo de trabajo" y espera pacientemente mientras Octoparse genera automáticamente el flujo de trabajo. Es importante asegurarte de que cada uno de los ajustes esté configurado correctamente, ya que estos son los ajustes exactos que utilizará Octoparse para generar la tarea de raspado.
Es posible que desees extraer más información de la página de detalles del producto, por lo que debemos establecer un paso más en el flujo de trabajo para garantizar que Octoparse pueda hacer clic en el enlace de cada producto en la página automáticamente.
4.4 Haz clic en "Hacer clic en los vínculos para scrapear las páginas enlazadas".
Elige la opción "Hacer clic en un campo de datos extraídos" y selecciona "Título_URL1" en el menú desplegable y haz clic en "Confirmar".
Observa cómo se agrega un paso adicional al flujo de trabajo que es el paso "Hacer clic en URL en la lista".
5. Seleccionar datos de la página de detalles
Ahora llegarás a la página de detalles. Una vez más, selecciona "Detectar automáticamente los datos de la página web" en el panel de Tips. El proceso de detección automática se iniciará automáticamente. Puedes cambiar entre los resultados detectados hasta que hayas seleccionado los datos correctos.
Haz clic en "Crear flujo de trabajo" y el flujo de trabajo actualizado debería ser así:
También puedes seleccionar manualmente la información en la página web para rasparla:
6. Limpiar los datos extraídos
Al observar los datos extraídos, hay algo que nos gustaría cambiar. Por ejemplo, nos gustaría deshacernos de la preposición "desde" en el campo "Ubicación", por lo tanto, necesitamos usar "Reformatear datos" para hacerlo.
Haz clic en el icono "Más" en la esquina superior derecha y selecciona "Reformatear datos".
Luego haz clic en "Agregar paso" - "Reemplazar". Necesitamos deshacernos de "desde" y asegurarnos de que todas las filas puedan coincidir con él que tenemos que reemplazar "desde" con nada, ya que este GIF se muestra a continuación.
Tips!
|
7. Prueba y ejecuta la tarea
La tarea de raspado ahora está completa. Como se mencionó anteriormente, siempre se recomienda que pruebes el flujo de trabajo paso a paso, asegurándote de que cada paso haga lo que debe hacer, por ejemplo, si hace clic en "Ir a la página web", debería cargar la página web en el navegador integrado.
Inicia el flujo de trabajo y haz clic en todos los pasos de arriba a abajo y de adentro hacia afuera para los pasos anidados (como la paginación). Observa si la página web responde como se esperaba. La metodología de prueba detallada se incluye aquí, no dudes en consultarla.
8. Programar y ejecutar
Ahora que tu tarea está completamente probada, puedes extraer los datos mucho más rápido ejecutando la tarea en la nube o también puedes programarla para que se ejecute de forma recurrente.
Para iniciar una ejecución en la nube, haz clic en "Ejecutar" y selecciona "Ejecutar tarea en la nube".
Para programar la tarea, haz clic en "Ejecutar" y selecciona "Programar tarea (nube)".
Elige la frecuencia deseada y designa un día y una hora para la ejecución.
9. Exporta tus datos
Ve al Dashboard para encontrar tu tarea y haz clic en abrir estado de la tarea para ver los datos extraídos. Haz clic en "Exportar datos" en la parte inferior y elige el formato en el que deseas descargar los datos.
Tips! Consulta este tutorial paso a paso para saber cómo descargar los datos extraídos. |
¡Felicitaciones! Has hecho un buen trabajo al llegar hasta aquí y has trabajado para convertirte en experto en web scraping. Esperamos que este no sea el final de tu aprendizaje, sino el comienzo de tu viaje de raspado web.
Si tienes alguna pregunta, ya sea relacionada con la tarea, con el web scraping o con el servicio, déjanos ayudarte. El equipo de Octoparse estamos encantados de ser parte de tu experiencia de raspado web.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.