Todas las colecciones
Tutorial de Casos
Otros
Scraping restaurant Info de Grubhub
Scraping restaurant Info de Grubhub
Actualizado hace más de una semana

En este tutorial, le mostraremos cómo extraer información de restaurantes de Grubhub.

Pasos principales en el tutorial:

1) "Ir a la página web" - para abrir la página web objetivo

  • Crea la tarea con el "Modo avanzado".

  • Pegue la URL en el cuadro "URL de extracción" y haga clic en "Guardar URL" para continuar.

2) Crear un ciclo de paginación - para raspar todos los resultados de múltiples páginas

  • Desplácese hacia abajo y haga clic en el botón ">>" en la página web

  • Haga clic en "Loop click single element" en "Consejos de acción"

Como este sitio web emplea la técnica AJAX para cargar el nuevo contenido, necesitamos configurar la "carga AJAX" para ayudar a Octoparse a evitar quedarse atascado.

  • Desmarque "Reintento automático"

  • Marque "AJAX Load" y configure "AJAX Timeout"

  • Clic en "Guardar"

3) Crear un "Elemento de Bucle" - para hacer clic en bucle en cada restaurante en cada página

Ahora estamos en la segunda página. Al crear un "Elemento de bucle", siempre debemos comenzar con el primer elemento en la primera página. Por lo tanto, mejor regresemos a la primera página.

  • Haga clic en "Ir a la página web" en el flujo de trabajo.

  • Seleccione el ciclo de paginación en el buclo de trabajo.

Al hacer esto, podemos ayudar a Octoparse a decidir la orden de ejecución y generar el elemento de bucle en la posición adecuada en el flujo de trabajo.

  • Haga clic en el primer elemento del restaurante, Octoparse identificará automáticamente las URL similares en la página

El primer elemento del restaurante se resalta en verde, mientras que los demás se resaltan en rojo.

  • Haga clic en "Seleccionar Todo" en los "Consejos de Acción"

Todos los Elementos están resaltados en verde.

  • Seleccione "Loop haga clic en cada elemento"

  • Desmarque "Reintento automático"

  • Desmarque "Abrir el enlace en una pestaña nueva

  • Marque "AJAX Load" y configure "AJAX Timeout"

  • Clic en Guardar"

  • Haga clic en "Elemento de Bucle" y configure un tiempo de espera para asegurarse de que la página web se cargue por completo

4) Extraer datos - para seleccionar los datos que necesita raspar

  • Seleccione los datos que necesita en la página de elementos para scrape, como el nombre del restaurante, la dirección, el horario de atención, el número de teléfono ...

  • Seleccione "Extraer texto del elemento seleccionado" y cambie el nombre de la columna

  • "Nombre del campo" si es necesario.

Cambie el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta

  • Haga clic en "Aceptar" para guardar el resultado.

Normalmente podemos hacer clic en "<" (volver al botón de la página de la lista) para generar una acción de "Hacer clic en el elemento", pero Octoparse no puede hacer eso aquí. Entonces necesitamos:

  • Coloque una acción "Hacer clic en elemento" en el diseñador de flujo de trabajo

  • Haga clic en "Personalizar" y "Personalizar XPath"

  • Establezca el XPath "//BUTTON[contains(@class,'returnToSearch')]" to locate the "<" (return to the list page button)

  • Desmarque "Reintento automático cuando no hay respuesta"

  • Marque "Cargar la página con AJAX" y configure Tiempo de espera

  • Clic en Guardar"

Para saber más sobre XPath, consulte este tutorial:

5) Guardar e iniciar extracciónpara ejecutar su tarea y obtener datos

  • Clic en Guardar"

  • Haga clic en "Iniciar extracción"

Aquí está la salida de muestra:

¿Te resultó útil este artículo ¡Contáctenos en cualquier momento si necesita nuestra ayuda!

¿Ha quedado contestada tu pregunta?