A veces, puede que en la ejecución en la nube no devuelvan datos con una tarea que se ejecuta perfectamente en el local. En este artículo, te mostraremos algunos consejos para solucionar este problema.
A continuación, se muestran algunas de las principales razones por las que no se devuelven datos:
1) El sitio web de destino no se carga por completo o no se cargan los datos que se van a extraer
El tiempo de carga del sitio web depende del estado de Internet y del sitio web en sí. Cuando pruebas el sitio web en una computadora local, el tiempo de carga puede ser más corto que en la nube.
Por lo tanto, si no obtienes datos extraídos, intenta aumentar el tiempo de espera para la acción "Ir a la página web".
Paso 1. Haz clic en "Ir a la página web"
Paso 2. Configurar el tiempo que necesites
2) Las IP de la nube están restringidas para acceder al sitio web debido a la alta frecuencia de raspado
Muchos sitios web aplican técnicas anti-raspado para evitar ser raspados. Limitan los tiempos en los que las IPs pueden acceder durante un tiempo determinado y bloquear cualquier IP que exceda la limitación.
Algunos sitios web pueden incluso bloquear todas las direcciones IP de una ubicación, por ejemplo, es posible que un sitio web japonés no se abra en Canadá.
La IP incluida en la lista negra debido a un raspado demasiado frecuente se puede resolver agregando tiempo de espera para ralentizar la extracción, pero la restricción a la ubicación de IP actualmente es un problema pendiente, ya que solo tenemos IP de EE. UU., Japón, Alemania y el Reino Unido.
3) Es necesario resolver un CAPTCHA antes de acceder a la página web
CAPTCHA también es un método de uso frecuente en un sitio web para evitar el raspado. Podría reconocer que se trata de una IP de servidor en la nube en lugar de una IP residencial que accede a las páginas. En muchos casos, el CAPTCHA se muestra directamente cuando abrimos la primera página del sitio web, lo que rompe todo el proceso de scraping. Es difícil resolver el CAPTCHA en la nube. Si tienes este error, comunícate con nosotros e intentaremos encontrar una solución para ti.
4) Error al iniciar sesión en el sitio web de destino
Si configuras los pasos de inicio de sesión o guarda cookies en una tarea para raspar un sitio web, la extracción local funcionaría perfectamente, pero la extracción en la nube puede fallar debido a que diferentes direcciones IP rotan durante la ejecución.
Muchos sitios web solicitarían una verificación antes de iniciar sesión. Esta verificación, como CAPTCHA, no se puede resolver en la extracción en la nube.
Las cookies guardadas siempre tienen fecha de caducamiento y ya no funcionará cuando caduque. Para resolver esto, deberás seguir los pasos de inicio de sesión una vez más para obtener y guardar las cookies actualizadas.
(Conoce cómo guardar cookies)
5) El diseño HTML del sitio web es diferente cuando se abre en la nube
Para Octoparse, extraer los datos web es en realidad recoger contenido del código fuente/archivo HTML. Necesita reconocer el código HTML para saber qué datos extraer. Existe el caso de que el diseño del sitio web sea diferente en la Nube y así provoque la falla de extracción.
Por ejemplo, cuando abre Sephora.com con una IP de China, la página será redirigida a Sephora.cn. El diseño de los sitios para diferentes ubicaciones es totalmente diferente. Entonces, cuando use la extracción de Octopare Cloud, asegúrate de que estás extrayendo un sitio que no será redirigido según las ubicaciones de IP.
Incluso el sitio web no sería redirigido, el código fuente también se puede cambiar un poco en un navegador diferente bajo diferentes condiciones de red.
¿Cómo puedo saber qué causa el error de extracción en la nube?
El proceso de extracción de Octoparse Cloud no puede venir a nuestra vista como la extracción local. Hay una forma sencilla de probar lo que sucede en la nube: extraer el código HTML externo de toda la página del sitio web.
Puedes seguir los siguientes pasos para extraer el código HTML:
Paso 1. Después de abrir la página del sitio web, haz clic en cualquier lugar para activar los "Tips".
Paso 2. Haz clic en la etiqueta HTML en la parte inferior de los "Tips" y luego extrae el código HTML externo
Paso 3. Ejecuta la tarea en la nube y obtendrás el código HTML
Paso 4. Copia los datos extraídos en un archivo de texto y guárdalo como un archivo HTML
Paso 5. Abre el archivo HTML con Chrome o Firefox para ver qué carga la página del sitio web en la nube.
Paso 6. Revisa la página web para averiguar cuál es el motivo del error de extracción.
Por ejemplo, si la página muestra "Acceso Denegado", significa que la IP de la nube está bloqueada. Si la página tiene el mismo aspecto, puedes inspeccionar el código HTML con cuidado para obtener el XPath correcto para la extracción.
Si tienes algún problema en configurar tu tarea de raspado, no dudes en escribir a nuestro equipo de Soporte. Nos pondremos en contacto contigo dentro de 24 horas.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.