Estás navegando por un tutorial para la última versión de Octoparse. Si aún estás utilizando una versión anterior, te recomendamos encarecidamente que la actualices porque es más rápida, más fácil y más robusta. Descarga y actualiza aquí si aún no lo has hecho.
La última versión introduce la función de descargar archivos e imágenes en dispositivos locales, de modo que podemos abrir directamente los archivos e imágenes desde las carpetas locales. Actualmente se admite la descarga en formato jpg, png, gif, doc, pdf, ppt, txt, xls y zip.
En este tutorial, vamos a mostrarte cómo descargar archivos e imágenes con Octoparse. Ten en cuenta que las descargas de archivos solo se pueden utilizar en la ejecución local actualmente.
Descargar archivos
Descargar imágenes
Configuración de descarga
Ejemplo de URL para la configuración del archivo por descargar: https://www.cclcomponents.com/fronius-gen24-plus-primo-3kw-hybrid-inverter
Ejemplo de URL para la configuración de imágenes por descargar: https://www.rappi.com.mx/tiendas/tipo/market
1. Descargar archivos
Haz clic en uno de esos botones de descargar - Elige un documento que desees descargar y el elemento seleccionado se volverá verde mientras que los elementos similares se volverán rojo.
Haz clic en Seleccionar todo en el cuadro de Tips - Todos los documentos serán identificados y seleccionados( se volverán verde).
Haz clic en extraer documento URLs y descargar archivos del enlace - Para extraer los enlaces y descargar los archivos a las carpetas locales
El campo de datos tendrá el aspecto que se muestra a continuación, podrías hacer clic en el icono de la esquina superior derecha para modificar los campos de datos.
Nota: Al eliminar el campo, se cancelará la configuración de la descarga.
Nombrar los archivos descargados
Hay cinco formas de nombrar los archivos descargados. Puedes ver las opciones en el cuadro de Tips.
Valor Hash MD5: Utiliza el valor MD5 para nombrar los archivos
Nombre del archivo original: Nombre del archivo original por defecto
Tiempo de descarga completo: Utiliza el tiempo de descarga completo para nombrar los archivos
Valor del campo de datos: Utiliza el valor del campo de datos para nombrar los archivos
Si el nombre del archivo ya existe en la carpeta, también hay tres maneras de resolverlo.
Omitir el nuevo archivo: Omitir el archivo actual descargado
Reemplazar el archivo existente: Sustituir el archivo existente por el archivo recién descargado
Cambia el nombre del nuevo archivo: Renombrar el nuevo archivo con un (1) al final del nombre del archivo
2. Descargar imágenes
La descarga de imágenes en carpetas locales es de la misma lógica que la de archivos.
Haz clic en una imagen - Elige una imagen
Haz clic en Seleccionar todo en el cuadro de Tips - Seleccionar todas las imágenes
Haz clic en Extraer las URL de las imágenes seleccionadas y comenzar a descargarlas - Para extraer los enlaces y descargar las imágenes en carpetas locales
Nota: Solo las URL con https:// pueden descargarse directamente con Octoparse. Si el valor de la URL raspada es solo una parte del enlace de descarga completo, podrías utilizar la función Añadir prefijo u otras funciones de reformatear datos para obtener los enlaces de descarga válidos.
3. Configuración de descarga
Configuración de descargar archivos
Haz clic en el icono de flecha en el campo
Puedes renombrar los archivos descargados, separar múltiples URLs e introducir URLs para omitir los archivos de descarga aquí
Configuración de la localización descargada
Haz clic en el icono de configuración de tareas en la esquina superior derecha de la plantilla de operación de esta tarea - Para abrir el panel de configuración