A veces necesitamos scrape la URL de la imagen de un sitio web, pero todo lo que obtenemos es solo la URL de una imagen en miniatura en lugar de una imagen de tamaño normal.
Aquí hay una foto scraped de Amazon. Como puede ver, la imagen es demasiado pequeña para ver.
Para obtener imágenes de tamaño normal, todo lo que debemos hacer es modificar la URL de la imagen que ya tenemos con los siguientes pasos:
1. Observe la diferencia entre la URL de imagen completa y la URL de miniatura.
En la mayoría de los casos, las URL de diferentes tamaños solo tienen una ligera diferencia. Lo que debemos hacer es descubrir la diferencia y utilizar la función "Refine extracted data" de Octoparse para volver a formatear la URL en miniatura en la URL completa.
Por ejemplo, la miniatura en Amazon es así
https://images-na.ssl-images-amazon.com/images/I/51Icrvma7ZL._SR38,50_.jpg
Y la URL de la imagen completa es
https://images-na.ssl-images-amazon.com/images/I/51Icrvma7ZL.__.jpg
Puede ver que la miniatura tiene 'SR38,50' en su URL. Entonces solo necesitamos eliminar eso en la URL.
2. Seleccione el campo de datos con la URL de la imagen y haga clic en "Customize data field"
3. Hace click en "Refine extracted data"
4. Hace click en "Add step" y luego click "Replace"
5. Ingrese lo que está entre "._" y "_." en la casilla "Replace".
Para este ejemplo, la URL es 'https://images-na.ssl-images-amazon.com/images/I/51Icrvma7ZL._SR38,50_.jpg'. Escriba SR38,50 en el cuadro Reemplazar y haga clic en "ok" para guardar.
Luego puede obtener la URL de imagen completa que necesita.
De: http://www.octoparse.es/tutorial-7/scrape-las-url-de-imagenes-completas
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.