Ahora que ha descargado Octoparse en su dispositivo y ha aprendido los conceptos básicos, ¡Es hora de comenzar su propio proyecto de web scraping!
La mayoría de los sitios web (directorios, comercio electrónico, sitios de bienes raíces, etc.) comparten diseños similares, es decir. Una página que contiene muchos elementos anidados en una lista. Veamos algunos ejemplos.
Bestbuy.com
Amazon.com
El nuevo auto-detect de Octoparse está especialmente diseñado para scraping este tipo páginas. Detecta automáticamente los datos de la lista (incluidos los elementos de texto y los enlaces), los botones "Página siguiente", los botones "cargar más" y desplazarse hacia abajo de una página, y luego genera la tarea de scraping automáticamente.
En esta lección, veremos cómo scraping los datos de la página web utilizando el algoritmo de detección automática.
¡Consejos! Octoparse Hello World proporciona varios sitios de prueba para ayudarlo a practicar el scraping de datos de diferentes tipos de páginas web. |
1. Crear una nueva tarea
Ingrese la URL de ejemplo "http://test-sites.octoparse.com/?product_cat=e-commerce-category-1" en el cuadro de búsqueda en el centro de la pantalla de inicio. Haga clic en "Inicio" para crear una nueva tarea con el Modo Avanzado.
2. Obtenga datos a través de auto-detect
Octoparse cargará la URL de la página web en el navegador incorporado y comenzará el proceso de detección automática automáticamente. Espere pacientemente hasta que se complete el proceso y cuando se proporcione más información en "Consejos".
¡Consejos! Si no puede acceder a los datos que necesita al cargar la página, consulte este tutorial sobre cómo puede interactuar con la página web antes de que los datos se detecten automáticamente. |
3. Verifique los datos
Cuando finalice la detección automática, siga las instrucciones proporcionadas en "Consejos" y verifique sus datos en la sección de vista previa. Puede cambiar el nombre de los campos de datos o eliminar aquellos que no son necesarios. Los datos detectados también se resaltarán en la página web.
4. Confirma tus opciones
Ahora, vaya a "Consejos" y verifique sus opciones. Según el tipo de datos detectados, se proporcionan varias opciones para que usted elija. Para este ejemplo, se detectan datos de la lista, de modo que se le proporcionan las opciones para:
1. Extraiga los datos de la lista - Esta opción está seleccionada de forma predeterminada, ya que Octoparse cree que esto es lo que debe hacer con seguridad.
2. Haga clic en el botón "Siguiente" para capturar varias páginas - Aparentemente, Octoparse ha detectado un botón "Siguiente" en la página. Marque esta opción si desea que Octoparse haga clic en el botón "Siguiente" para extraer datos de más páginas.
Sugerencias - Para averiguar si el botón detectado es el correcto, haga clic en "Verificar" y observe cómo se resalta en la página web. Si necesita volver a seleccionar el botón "Siguiente", haga clic en "Editar" y siga las instrucciones de "Consejos".
3. Haga clic en los "enlaces" para capturar datos en la página siguiente - Octoparse le pregunta si desea hacer clic en los enlaces detectados y extraer más información de las páginas de detalles. Marque esta opción si esto es lo que necesita.
Sugerencia: Para confirmar si los enlaces son los que desea hacer clic, haga clic en "Verificar" para que los enlaces se resalten en la página web.
En este ejemplo, solo queremos raspar la información de la lista en todas las páginas. Por lo tanto, seguiremos adelante y verificaremos la primera y la segunda opción.
5. Guardar la configuración de la tarea
Después de confirmar la configuración, haga clic enfter confirming the settings, click "Save Settings".
Octoparse generaría un flujo de trabajo automáticamente basado en los datos detectados y la configuración guardada. Puede elegir ejecutar la tarea ahora o editar el flujo de trabajo manualmente.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.