En este tutorial, te mostraremos cómo recopilar detalles comerciales en Yell.com con Octoparse.
Para demostrarlo, usaremos la siguiente URL como ejemplo.
https://www.yell.com/ucs/UcsSearchAction.do?scrambleSeed=627415385&keywords=dentists&location=London
Extraeremos datos como el Título, la Dirección, el Número de teléfono y el Sitio Web de la página web.
Estos son los pasos principales de este tutorial: [Descargar archivo de tareas de demostración aquí ]
- Ir a la Página Web - abrir la web de destino
- Detectar automáticamente los datos de la página web - para configurar el flujo de trabajo
- Extraer datos - modificar los campos de datos
- Iniciar extracción - ejecutar la tarea y obtener datos
1. Ir a la Página Web - abrir la web de destino
- Ingresa la URL en la página de inicio
- Haz clic en "Iniciar" para crear una nueva tarea.
2. Detectar automáticamente los datos de la página web - para configurar el flujo de trabajo
- Haz clic en "Detectar automáticamente datos de páginas web".
- Espera a que se complete la detección
- Ve a "Vista previa de datos" para ver si está de acuerdo con los datos
- Puedes eliminar los campos de datos innecesarios directamente haciendo clic en el icono
- También puedes modificar los nombres de los campos de datos aquí directamente haciendo clic en el icono
- Puedes eliminar los campos de datos innecesarios directamente haciendo clic en el icono
- Haz clic en "Crear flujo de trabajo" en el panel de Tips.
Octoparse generaría un flujo de trabajo automáticamente con los campos de datos que ha detectado.
3. Extraer datos - extraer números de teléfono y sitios web
Podría haber información no detectada por la detección automática y podemos seleccionarla para scrapearla manualmente
- Selecciona el "Sitio web" de la primera empresa en la página web (recuerda seleccionar del área resaltada en rojo)
- Elige "Extraer la URL del enlace seleccionado"
- Haz clic en abrir la configuración de Extraer datos y modifica el XPath del campo ingresando //a[contains(text(),'Website')]
Extraer números de teléfono es complicado en este caso, ya que los números no son visibles en la página web, pero se almacenan en el código HTML. Podemos scrapear un campo y modificar el XPath del campo para obtener el número de teléfono.
- Selecciona el botón "Call" y extrae el texto
- Haz clic en abrir la configuración de Extraer datos y modifica el XPath del campo ingresando //span[@itemprop="telephone"]
Tips! La dirección de correo electrónico no se puede scrapear en este caso, ya que la página web no incluye la dirección de correo electrónico en su código fuente. Al hacer clic en el botón Correo electrónico, accederá a una página para enviar información. |
- Cambia el nombre de los campos si es necesario
4. Iniciar extracción - ejecutar la tarea y obtener datos
- Haz clic en"Guardar"
- Haz clic en "Ejecutar" en la parte superior izquierda
- Selecciona "Run task on your device" para ejecutar la tarea en tu computadora, o selecciona "Run task in the cloud" para ejecutar la tarea en la nube (solo para usuarios del plan premium)
Puedes exportar los datos de resultados en formatos proporcionados como EXCEL, CVS, JSON o en tu base de datos.
Aquí tienes una muestra de datos.
Si tienes alguna duda en configurar tu tarea, no dudes en enviar un ticket a nuestro equipo de Soporte.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.