Todas las colecciones
Tutorial de Casos
Generación de Prospectos
Scrapear información de comercios de Páginas Amarillas
Scrapear información de comercios de Páginas Amarillas
Actualizado hace más de una semana

Páginas Amarillas es uno de los sitios web de directorios de empresas de Internet en España. Millones de personas buscan empresas objetivo todos los días. La información comercial agrega información valiosa a la plataforma.

En este tutorial, te presentamos dos soluciones de extraer datos de productos de Páginas Amarillas con Octoparse.

Solución 1 Plantillas de tarea de Páginas Amarillas

Puedes ir a la categoría "Directorios" de las plantillas de Octoparse y comenzar con la Plantilla de Páginas Amarillas directamente para ahorrar tiempo. Con esta función, no es necesario configurar las tareas de raspado. Para obtener más detalles sobre las plantillas prediseñadas de Octoparse, puedes consultar este artículo: Plantillas de tarea

mceclip0.png
plantilla_paginas_amarillas.png

Aquí está la muestra de datos que puedes conseguir con las plantillas. Para probarlas, puedes solicitar una prueba premium de 14 días para comenzar: ¡Comienza la prueba gratis del plan premium de 14 días de Octoparse!

Solución 2 Configurar tarea para Páginas Amarillas en Octoparse

Si quieres extraer más información de los productos de manera flexible, puedes continuar conmigo en este tutorial y configuraremos una tarea demo para enseñarte cómo se hace. Extraeremos datos como nombre, dirección, horario, teléfono, sitio web, etc de la página de detalles del comercio con Octoparse.

Tomamos esta URL como ejemplo:

Estos son los pasos principales de la configuración de tarea para Páginas Amarillas:

1. "Ir a la página web" - abrir la página web de destino

  • Ingresa la URL de ejemplo y haz clic en "Empezar"

mceclip2.png

2. Detectar automáticamente los datos de la página web - crear el flujo de trabajo

  • Haz clic en "Detectar automáticamente los datos de la página web" y espera a que se complete la detección.

mceclip1.png
  • En la Vista previa de datos, puedes doble clic en el nombre del campo para modificar el nombre y elimina los campos no deseados haciendo clic en el icono

    mceclip4.png

    y luego elegir ¨Suprimir campo¨

mceclip3.png
  • Desmarca la casilla "Agregar un desplazamiento de página".

  • Elige "Crear workflow" en el panel de Tips.

mceclip4.png

Ahora obtendrás el flujo de trabajo a continuación.

mceclip5.png

Si todos los datos que necesitas se pueden extraer de la página de listado, puedes detener aquí y saltar a Iniciar extracción - ejecutar la tarea y obtener los datos. Si quieres ir a la página de detalles de cada producto para obtener más información, sigue los pasos a continuación.

3. Hacer clic en los enlaces para ir a la página de detalles y extraer más información

  • Elige la opción “Hacer clic en lo(s) enlace(s) para scrapear la(s) página(s) enlazada(s)" en el panel de Tips

Hacer_clic_en_el_enlace_para_ir_a_la_p_gina_de_detalles_P_ginas_Amarillas.gif

Octoparse iría automáticamente a la primera página de detalles del producto.

4. Extraer datos de la página de detalles del comercio

  • Haz clic en los elementos que desees y selecciona "Extraer el texto del elemento".

mceclip6.png
  • Haz doble clic en el nombre del campo para cambiar el nombre si te es necesario

mceclip7.png

Tips!

Consulta los siguientes tutoriales para saber qué tipo de datos puedes extraer con Octoparse:

El Xpath es muy importante para localizar los datos con precisión en Octoparse. Puedes consultar este artículo a continuación para escribir XPath para otros campos si te es necesario:

5. Iniciar la extracción - ejecutar la tarea y obtener los datos

  • Haz clic en "Guardar" y "Ejecutar" en el lado superior izquierdo

  • Selecciona "Ejecutar en el dispositivo" para ejecutar la tarea en tu computadora, o selecciona "Ejecutar en la nube" para ejecutarla en nuestros servidores en la nube (solo para usuarios premium)

mceclip0.png

¿Ha quedado contestada tu pregunta?