Todas las colecciones
FAQ
¿Por qué no se extrae datos en la nube, pero funciona bien en local?
¿Por qué no se extrae datos en la nube, pero funciona bien en local?
Actualizado esta semana

A veces, puede que con la ejecución en la nube no se extrae datos de una tarea que se ejecuta perfectamente en local (dispositivo). En este artículo, te mostraremos algunos consejos para solucionar este problema. A continuación, se muestran algunas de las principales causas del problema:

1. El diseño HTML del sitio web se modifica cuando se abre en la nube

Para Octoparse, extraer los datos web es en realidad recoger contenido del código fuente/archivo HTML. Necesita reconocer el código HTML para saber qué datos extraer. Existe el caso de que el diseño del sitio web sea diferente en la nube, lo que provoque la falla de extracción.

Por ejemplo, cuando abre Sephora.com con una IP de China, la página será redirigida a Sephora.cn. El diseño de los sitios para diferentes ubicaciones es totalmente diferente. Entonces, cuando usas la extracción en la nube, necesitas asegurarte de que estás extrayendo un sitio que no estará redirigido según las ubicaciones de IP.

A veces, el sitio web no cambiará, sin embargo, el código fuente se puede cambiar un poco en un navegador diferente bajo diferentes condiciones de internet.

En este caso puedes considerar a cambiar Xpath para ubicar los campos con precisión.


2. El sitio web de destino no se carga por completo o no se cargan los datos que se van a extraer

El tiempo de carga del sitio web depende del estado de Internet y del sitio web en sí. Cuando pruebas el sitio web en una computadora local, el tiempo de carga puede ser más corto que en la nube.

Por lo tanto, si no obtienes datos extraídos, intenta prolongar el tiempo de espera para la acción "Ir a la página web".

Paso 1. Haz clic en "Ir a la página web"

mceclip1.png

Paso 2. Configurar el tiempo que necesites

mceclip0.png

También podrías intentar agregar tiempo de espera para ralentizar la extracción.

mceclip0.png

Si el prolongar el tiempo no sirve para resolver el problema, podrías intentar cambiar el navegador por Chrome 91 Linux o Safari 15.1, lo que ayuda a cargar las páginas web.

mceclip1.png

Además, puedes cambiar grupo de direcciones IP públicas.

mceclip2.png


3. Las IP de la nube están restringidas para acceder al sitio web debido a la alta frecuencia de raspado y anti-scraping

Muchos sitios web aplican tecnología de anti-scraping para evitar ser raspados. Limitan los tiempos en los que las IPs pueden acceder durante un periodo determinado y bloquear cualquier IP que exceda la limitación. Por lo tanto, usar varias IP es bastante útil durante la web scraping. Así que, aprovecha la rotación de IP en la configuración para resolver el problema.

Y algunos sitios web pueden incluso bloquear todas las direcciones IP de una ubicación, por ejemplo, es posible que un sitio web japonés no se abra en Canadá. En este caso, para hacer el scraping con éxito, te recomendamos que ejecutes la tarea en el local con IP proxy.

Necesitas usar IP proxy como GIF para correr en Nube. Cuidado esa función es un servicio de pago. Si tu cuanta o plan no tiene créditos necesitas comprar los créditos o actualizar a Pro(Estándar no se regala).


4. Es necesario resolver un CAPTCHA antes de acceder a la página web

CAPTCHA también es un método de uso frecuente en un sitio web para evitar el raspado. Podrías reconocer que se trata de una IP de servidor en la nube en lugar de una IP residencial que accede a las páginas. En muchos casos, el CAPTCHA se muestra directamente cuando abrimos la primera página del sitio web, lo que rompe todo el proceso de scraping. Es difícil resolver el CAPTCHA en la nube. Si tienes este error, comunícate con nosotros e intentaremos encontrar una solución para ti.


5. Error al iniciar sesión en el sitio web de destino

Si configuras los pasos de inicio de sesión o guardas cookies en una tarea para raspar un sitio web, la extracción local funcionaría perfectamente, pero la extracción en la nube puede fallar debido a que diferentes direcciones IP rotan durante la ejecución.

Muchos sitios web solicitarían una verificación antes de iniciar sesión. Esta verificación, como CAPTCHA, no se puede resolver en la extracción en la nube.

Las cookies guardadas siempre tienen fecha de caducamiento y ya no funcionará cuando caduque. Para resolver esto, deberás seguir los pasos de inicio de sesión una vez más para obtener y guardar las cookies actualizadas.


¿Cómo puedo saber qué causa el error de extracción en la nube?

El proceso de la extracción en el local de Octoparse se puede ver, pero la extracción en la nube no.

Hay una forma sencilla de probar lo que sucede en la nube: extraer el código HTML externo de toda la página del sitio web.

Puedes seguir los siguientes pasos para extraer el código HTML:

Paso 1. Después de abrir la página del sitio web, haz clic en cualquier lugar para activar los "Tips".

Paso 2. Haz clic en la etiqueta HTML en la parte inferior de los "Tips" y luego extrae el código HTML externo

mceclip3.png

Paso 3. Ejecuta la tarea en la nube y obtendrás el código HTML

mceclip1.png

Paso 4. Copia los datos extraídos en un archivo de texto y guárdalo como un archivo HTML

Paso 5. Abre el archivo HTML con Chrome o Firefox para ver qué carga la página del sitio web en la nube.

80203.gif

Paso 6. Revisa la página web para averiguar cuál es el motivo del error de extracción.

Por ejemplo, si la página muestra "Acceso Denegado", significa que la IP de la nube está bloqueada. Si la página tiene el mismo aspecto, puedes inspeccionar el código HTML con cuidado para obtener el XPath correcto para la extracción.

¿Ha quedado contestada tu pregunta?