Páginas Amarillas es uno de los sitios web de directorios de empresas de Internet en España. Millones de personas buscan empresas objetivo todos los días. La información comercial agrega información valiosa a la plataforma.
En este tutorial, te presentamos dos soluciones de extraer datos de productos de Páginas Amarillas con Octoparse.
Solución 1 Plantillas de tarea de Páginas Amarillas
Puedes ir a la categoría "Directorios" de las plantillas de Octoparse y comenzar con la Plantilla de Páginas Amarillas directamente para ahorrar tiempo. Con esta función, no es necesario configurar las tareas de raspado. Para obtener más detalles sobre las plantillas prediseñadas de Octoparse, puedes consultar este artículo: Plantillas de tarea
Aquí está la muestra de datos que puedes conseguir con las plantillas. Para probarlas, puedes solicitar una prueba premium de 14 días para comenzar: ¡Comienza la prueba gratis del plan premium de 14 días de Octoparse!
Solución 2 Configurar tarea para Páginas Amarillas en Octoparse
Si quieres extraer más información de los productos de manera flexible, puedes continuar conmigo en este tutorial y configuraremos una tarea demo para enseñarte cómo se hace. Extraeremos datos como nombre, dirección, horario, teléfono, sitio web, etc de la página de detalles del comercio con Octoparse.
Tomamos esta URL como ejemplo:
Estos son los pasos principales de la configuración de tarea para Páginas Amarillas:
- "Ir a la página web" - abrir la página web de destino
- Detectar automáticamente los datos de la página web - crear el flujo de trabajo
- Hacer clic en los enlaces para ir a la página de detalles y extraer más información
- Extraer datos de la página de detalles del comercio
- Iniciar la extracción - ejecutar la tarea y obtener los datos
1. "Ir a la página web" - abrir la página web de destino
- Ingresa la URL de ejemplo y haz clic en "Empezar"
2. Detectar automáticamente los datos de la página web - crear el flujo de trabajo
- Haz clic en "Detectar automáticamente los datos de la página web" y espera a que se complete la detección.
- En la Vista previa de datos, puedes doble clic en el nombre del campo para modificar el nombre y elimina los campos no deseados haciendo clic en el icono
y luego elegir ¨Suprimir campo¨
- Desmarca la casilla "Agregar un desplazamiento de página".
- Elige "Crear workflow" en el panel de Tips.
Ahora obtendrás el flujo de trabajo a continuación.
Si todos los datos que necesitas se pueden extraer de la página de listado, puedes detener aquí y saltar a Iniciar extracción - ejecutar la tarea y obtener los datos. Si quieres ir a la página de detalles de cada producto para obtener más información, sigue los pasos a continuación.
3. Hacer clic en los enlaces para ir a la página de detalles y extraer más información
- Elige la opción “Hacer clic en lo(s) enlace(s) para scrapear la(s) página(s) enlazada(s)" en el panel de Tips
Octoparse iría automáticamente a la primera página de detalles del producto.
4. Extraer datos de la página de detalles del comercio
- Haz clic en los elementos que desees y selecciona "Extraer el texto del elemento".
- Haz doble clic en el nombre del campo para cambiar el nombre si te es necesario
Tips! Consulta los siguientes tutoriales para saber qué tipo de datos puedes extraer con Octoparse:
El Xpath es muy importante para localizar los datos con precisión en Octoparse. Puedes consultar este artículo a continuación para escribir XPath para otros campos si te es necesario: |
5. Iniciar la extracción - ejecutar la tarea y obtener los datos
- Haz clic en "Guardar" y "Ejecutar" en el lado superior izquierdo
- Selecciona "Ejecutar en el dispositivo" para ejecutar la tarea en tu computadora, o selecciona "Ejecutar en la nube" para ejecutarla en nuestros servidores en la nube (solo para usuarios premium)
Si tienes algún problema en extraer datos de Páginas Amarillas o necesitas más tutoriales paso a paso, no dudes en escribir a nuestro equipo de Soporte. Nos pondremos en contacto contigo dentro de 24 horas.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.