Todas las colecciones
Cursos Integrados de Octoparse
Pasos de Workflow(Flujo)
Scrapear y descargar archivos/imágenes desde sitios web
Scrapear y descargar archivos/imágenes desde sitios web
Actualizado hace más de una semana

Estás navegando por un tutorial para la última versión de Octoparse. Si aún estás utilizando una versión anterior, te recomendamos encarecidamente que la actualices porque es más rápida, más fácil y más robusta. Descarga y actualiza aquí si aún no lo has hecho.

La última versión introduce la función de descargar archivos e imágenes en dispositivos locales, de modo que podemos abrir directamente los archivos e imágenes desde las carpetas locales. Actualmente se admite la descarga en formato jpg, png, gif, doc, pdf, ppt, txt, xls y zip.

En este tutorial, vamos a mostrarte cómo descargar archivos e imágenes con Octoparse. Ten en cuenta que las descargas de archivos solo se pueden utilizar en la ejecución local actualmente.

  1. Descargar archivos

  2. Descargar imágenes

  3. Configuración de descarga

Ejemplo de URL para la configuración del archivo por descargar: https://www.cclcomponents.com/fronius-gen24-plus-primo-3kw-hybrid-inverter

ccl_extraer.png

Ejemplo de URL para la configuración de imágenes por descargar: https://www.rappi.com.mx/tiendas/tipo/market

super_domicilio.png

1. Descargar archivos

  • Haz clic en uno de esos botones de descargar - Elige un documento que desees descargar y el elemento seleccionado se volverá verde mientras que los elementos similares se volverán rojo.

view_download.png
  • Haz clic en Seleccionar todo en el cuadro de Tips - Todos los documentos serán identificados y seleccionados( se volverán verde).

mceclip0.jpg
  • Haz clic en extraer documento URLs y descargar archivos del enlace - Para extraer los enlaces y descargar los archivos a las carpetas locales

download.png

El campo de datos tendrá el aspecto que se muestra a continuación, podrías hacer clic en el icono de la esquina superior derecha para modificar los campos de datos.

modified.png

Nota: Al eliminar el campo, se cancelará la configuración de la descarga.

  • Nombrar los archivos descargados

Hay cinco formas de nombrar los archivos descargados. Puedes ver las opciones en el cuadro de Tips.

  • Valor Hash MD5: Utiliza el valor MD5 para nombrar los archivos

  • Nombre del archivo original: Nombre del archivo original por defecto

  • Tiempo de descarga completo: Utiliza el tiempo de descarga completo para nombrar los archivos

  • Valor del campo de datos: Utiliza el valor del campo de datos para nombrar los archivos

mceclip5.jpg

Si el nombre del archivo ya existe en la carpeta, también hay tres maneras de resolverlo.

mceclip6.jpg
  • Omitir el nuevo archivo: Omitir el archivo actual descargado

  • Reemplazar el archivo existente: Sustituir el archivo existente por el archivo recién descargado

  • Cambia el nombre del nuevo archivo: Renombrar el nuevo archivo con un (1) al final del nombre del archivo


2. Descargar imágenes

La descarga de imágenes en carpetas locales es de la misma lógica que la de archivos.

  • Haz clic en una imagen - Elige una imagen

IMAGE.png
  • Haz clic en Seleccionar todo en el cuadro de Tips - Seleccionar todas las imágenes

mceclip1.jpg
  • Haz clic en Extraer las URL de las imágenes seleccionadas y comenzar a descargarlas - Para extraer los enlaces y descargar las imágenes en carpetas locales

mceclip2.jpg

Nota: Solo las URL con https:// pueden descargarse directamente con Octoparse. Si el valor de la URL raspada es solo una parte del enlace de descarga completo, podrías utilizar la función Añadir prefijo u otras funciones de reformatear datos para obtener los enlaces de descarga válidos.

mceclip3.jpg

3. Configuración de descarga

Configuración de descargar archivos

  • Haz clic en el icono de flecha en el campo

mceclip4.jpg
  • Puedes renombrar los archivos descargados, separar múltiples URLs e introducir URLs para omitir los archivos de descarga aquí

mceclip8.jpg

Configuración de la localización descargada

  • Haz clic en el icono de configuración de tareas en la esquina superior derecha de la plantilla de operación de esta tarea - Para abrir el panel de configuración

mceclip9.jpg
  • Haz clic en el botón Navegar - Elige una carpeta local para los archivos e imágenes descargados

  • Elige un modo para la configuración de Cuando se inicia una tarea

  • Haz clic en Guardar - Guardar toda la configuración

    mceclip10.jpg
¿Ha quedado contestada tu pregunta?