En este tutorial, te mostraremos cómo extraer información del listado de Bing.com.
Para Bing, puedes visitar nuestra "Plantillas de tarea" en la pantalla principal de Octoparse. Todo lo que necesitas es ingresar varios parámetros y la tarea estará lista para comenzar. Para obtener más detalles, consulta: Plantillas de Tarea
Para continuar, necesitamos utilizar esta URL en el tutorial:
Recogeremos datos como el título, la URL y la descripción del listado de resultados de búsqueda con Octoparse.
Estos son los pasos principales de este tutorial [Descargar la tarea de demostración aquí ]:
- "Ir a la Página Web" - abrir la página web de destino
- Crear un bucle de paginación - scrapear varias páginas de listas
- Extraer datos - scrapear ciertos elementos en cada página
- Guardar e iniciar la extracción - ejecutar la tarea y obtener datos
1. "Ir a la Página Web" - abrir la página web de destino
- Introduce la URL de ejemplo y haz clic en "Iniciar".
2. Crear un bucle de paginación - para scrapear varias páginas de listas
- Desplaza hacia abajo y haz clic en el botón ">" en la página web
- Haz clic en "Hacer clic en bucle en una sola URL" en el panel de Tips.
Una vez creada la "Paginación", puedes comprobar si la paginación funciona bien para paginar a la página siguiente haciendo clic manualmente en las acciones "Paginación" y "Haga clic para paginar" en el flujo de trabajo (como lo que muestra el GIF).
3. Extraer datos - eliminar ciertos elementos de cada página
Comencemos con el primer elemento no publicitario de la lista de resultados de búsqueda.
- Haz clic en el título del primer elemento que no es del anuncio en la página.
- Haz clic en "Seleccionar todo" en el panel de Tips.
Verás que se seleccionan otros elementos similares.
- Elige "Extraer texto de los elementos seleccionados" en el panel de Tips.
Si todas las secciones se resaltaron en rojo, significa que el ciclo se creó correctamente. También generará un campo del título. Está bien conservarlo.
- Selecciona un elemento de la lista de Elementos de Bucle y verás el seleccionado resaltado en azul
- Haz clic en el título del artículo
- Elige "Extraer la URL del vínculo seleccionado" en el panel de Tips.
- Si necesitas la descripción, haz clic en el texto y luego elige "Extraer el texto del elemento seleccionado"
- También puedes agregar algunos campos de datos predefinidos desde el icono "+". Elijo "Fecha y hora actuales" para obtener la hora extraída
- Si quieres cambiar el nombre del campo, simplemente haz clic en el icono junto al nombre del campo en la "Vista Previa de Datos".
Aquí encontramos que algunos anuncios todavía están incluidos en nuestro bucle, pero no los necesitamos. Por lo tanto, necesitaríamos modificar XPath.
- Haz clic para modificar el elemento Loop y cambiar XPath ingresando //li[@class='b_algo']
- Haz clic en "Aceptar" para guardar
Tips! La modificación de XPath en Octoparse funciona muy bien con más flexibilidad y precisión que el XPath autogenerado.
Aquí hay algunos tutoriales relacionados que puedes necesitar: |
4. Guardar e iniciar la extracción - ejecutar la tarea y obtener datos
- Haz clic en Guardar"
- Haz clic en "Ejecutar" en la parte superior izquierda
- Selecciona "Run task on your device" para ejecutar la tarea en tu computadora, o selecciona"Run task in the cloud" para ejecutar la tarea en la nube (solo para usuarios de plan premium)
Aquí tienes una muestra de datos.
Si tienes alguna duda en configurar tu tarea, no dudes en enviar un ticket a nuestro equipo de Soporte.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.