En general, hay dos formas de extraer varias imágenes de la página web con Octoparse.
1. Haga clic en la imagen para extraer la URL directamente
Método 1:
Haga clic en la primera imagen, luego seleccione "Extraer URL" en el panel "Action Tips", haga clic en la segunda imagen, luego seleccione "Extraer URL", etc. Las instrucciones detalladas se pueden encontrar en el Paso 4) de este tutorial: Scraping la imagen del producto de Amazon
Los datos extraídos estarían en este formato:
Método 2:
Haga clic en imagen1, luego imagen2, imagen3, etc. hasta que obtengamos todas las imágenes deseadas seleccionadas, luego haga clic en "Extraer URL" en el Panel de Acción. Se generará automáticamente un Elemento de bucle de imágenes. Las instrucciones detalladas se pueden encontrar en el Ejemplo 1 de este tutorial: Construir un crawler de imágenes sin codificación
Los datos extraídos estarían en este formato:
2. Scraping el código fuente primero, luego formatee las URL de las imágenes que están incrustadas en ese montón de código fuente;
Para saber cómo, consulte los Consejos en el Paso 4) de este tutorial: Scraping la imagen del producto de Amazon
Nota: Si seleccionando "Extraer HTML interno" no puede obtener la correcta de código fuente, intente "Extraer HTML externo". |
Ahora que tenemos a mano las URL de las imágenes, el último paso sería obtener imágenes a tamaño completo de las miniaturas. Para este paso, utilizaremos la herramienta de limpieza de datos integrada de Octoparse. Consulte Cómo scrape las URL de la imagen completa en lugar de las miniaturas para obtener más detalles.
Las URL de la imagen estarán todas en una celda como esta
De: http://www.octoparse.es/tutorial-7/extraer-varias-im%C3%A1genes-de-website
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.