Todas las colecciones
Octoparse 101
Lección 1: Extraer datos con el nuevo algoritmo de Auto-Detectar
Lección 1: Extraer datos con el nuevo algoritmo de Auto-Detectar
Actualizado hace más de una semana

Ahora que has descargado Octoparse en tu dispositivo y has aprendido los conceptos básicos, ¡Es hora de comenzar su propio proyecto de web scraping!

La mayoría de los sitios web (directorios, comercio electrónico, sitios de bienes raíces, etc.) comparten diseños similares, es decir. Una página que contiene muchos elementos anidados en una lista. Veamos algunos ejemplos.

Bestbuy.com

eBay1.png

Amazon.com

AMAZON2.png

El nuevo auto-detectar de Octoparse está especialmente diseñado para scraping este tipo páginas. Detectar automáticamente los datos de la lista (incluidos los elementos de texto y los enlaces), los botones "Página siguiente", los botones "cargar más" y desplazarse hacia abajo de una página, y luego genera la tarea de scraping automáticamente.

En esta lección, veremos cómo scraping los datos de la página web utilizando el algoritmo de detección automática.

Nota:

Octoparse Hola Mundo proporciona varios sitios de prueba para ayudarlo a practicar el scraping de datos de diferentes tipos de páginas web.

1. Crear una nueva tarea

Ingresa la URL de ejemplo "http://test-sites.octoparse.com/?product_cat=e-commerce-category-1" en el cuadro de búsqueda en el centro de la pantalla de inicio. Haz clic en "Inicio" para crear una nueva tarea con el Modo Avanzado.

ingresar_enlace3.png

2. Obtener datos a través de auto-detectar

Octoparse cargará la URL de la página web en el navegador incorporado y comenzará el proceso de detección automática automáticamente. Espera pacientemente hasta que se complete el proceso y cuando se proporcione más información en "Tips".

empezar4.gif

Nota:

Si no puedes acceder a los datos que necesitas al cargar la página, consulta este tutorial sobre cómo puedes interactuar con la página web antes de que los datos se detecten automáticamente.


3. Verificar los datos

Cuando finalice la autodetección, sigue las instrucciones proporcionadas en "Tips" y verifica los datos en la sección de vista previa. Puedes cambiar el nombre de los campos de datos o eliminar aquellos que no son necesarios. Los datos detectados también se resaltarán en la página web.

verificar5.gif


4. Confirmar tus opciones

Ahora, ir a "Tips" y verificar las opciones. Según el tipo de datos detectados, se proporcionan varios resultados para que elija. Para este ejemplo, se detectan datos de la lista, de modo que se le proporcionan las opciones para:

confirmar6.png
  • Extraer los datos de la lista - Esta opción está seleccionada de forma predeterminada, ya que Octoparse cree que esto es lo que debe hacer con seguridad.

  • Hacer clic en el botón "Siguiente" para capturar varias páginas - Aparentemente, Octoparse ha detectado un botón "Siguiente" en la página. Marque esta opción si deseas que Octoparse haga clic en el botón "Siguiente" para extraer datos de más páginas.

Sugerencia:

Para averiguar si el botón detectado es el correcto, haz clic en "Verificar" y observa cómo se resalta en la página web. Si necesitas volver a seleccionar el botón "Siguiente", haz clic en "Editar" y siga las instrucciones de "Tips".

revisar7.gif

  • Haga clic en los "enlaces" para capturar datos en la página siguiente - Octoparse le pregunta si desea hacer clic en los enlaces detectados y extraer más información de las páginas de detalles. Marque esta opción si esto es lo que necesita.

Sugerencia:

Para confirmar si los enlaces son los que desea hacer clic, haga clic en "Verificar" para que los enlaces se resalten en la página web.

En este ejemplo, solo queremos raspar la información de la lista en todas las páginas. Por lo tanto, seguiremos adelante y verificaremos la primera y la segunda opción.


5. Guardar la configuración de la tarea

Después de confirmar la configuración, haz clic en"Guardar"

crear_workflow8.png

Octoparse generaría un flujo de trabajo automáticamente basado en los datos detectados y la configuración guardada. Puedes elegir ejecutar la tarea ahora o editar el flujo de trabajo manualmente.

workflow9.png
¿Ha quedado contestada tu pregunta?