Resolver Captcha & hCaptcha & ReCaptcha V2
Actualizado hace más de una semana

CAPTCHA es una técnica anti-scraping muy común aplicada por muchos sitios web en diferentes formas.

Para ayudar a mejorar la eficiencia del scraping, Octoprase puede manejar los tres tipos de Captcha automáticamente: hCaptcha, ReCaptcha V2, e ImageCaptcha.

hCaptcha y ReCaptcha V2 pueden ser resueltos de manera similar, mientras que es más complicado configurar una resolución para tratar con ImageCaptcha.

Sigue este tutorial y podrás tener una comprensión básica de cada Captcha y manejarlos con Octoparse.

1. ¿Qué son hCaptcha y ReCaptcha V2?

  • hCaptcha normalmente combina:

- un botón I am human(soy humano) con el logotipo de hCaptcha

mceclip0.png

- y preguntas sencillas (en imágenes) que son fáciles para los humanos y difíciles para las máquinas:

mceclip1.png
  • ReCaptcha V2

La mayoría de los ReCaptcha V2 suelen tener un botón I'm not a robot(No soy robot); sin embargo, a veces, pueden contener preguntas sencillas similares a las de hCaptcha.

mceclip2.png

2. Cómo resolver hCaptcha y ReCaptcha V2

  • Haz clic en

    mceclip3.png

    en el flujo de trabajo

  • Selecciona Solve CAPTCHA

mceclip0.jpg
  • Haz clic en el recuadro Resolver CAPTCHA

  • Selecciona hCaptcha/ReCaptcha V2 como tipo de CAPTCHA

mceclip1.jpg
mceclip2.jpg
  • Haz clic en Aplicar para guardar la configuración

mceclip3.jpg

Nota: El hCaptcha y el ReCaptcha no se resolverán automáticamente hasta la ejecución de los datos. Por lo tanto, es necesario activar el Modo de Navegador

mceclip4.jpg

y resolverlo manualmente para proceder al crear la tarea.

3. ¿Qué es ImageCaptcha?

ImageCaptcha es la forma original de verificar a los humanos. Puede utilizar palabras o frases conocidas o combinaciones aleatorias de dígitos y letras. Algunos ImageCaptchas también incluyen variaciones en las mayúsculas.

mceclip4.png

4. Solución para ImageCaptcha

Para seguir el tutorial y resolver ImageCaptcha, podemos utilizar la siguiente URL:
https://democaptcha.com/demo-form-eng/image.html

A. Selecciona el Cuadro de Entrada y el Cuadro de Imagen para el Captcha

  • Haz clic en el Cuadro de Entrada para el Captcha

  • Selecciona Resolver Captcha en el panel de Consejos

mceclip5.jpg
  • Haz clic en el Cuadro de imagen

  • Haz clic en Confirmar en el panel de Consejos

mceclip6.jpg

B. Configura un fallo de resolución de Captcha

Ahora, necesitamos entrenar a Octoparse para que resuelva el Captcha estableciendo un fallo de resolución.

  • Haz clic en el mensaje de error (en este caso - Se han detectado algunos errores en tu formulario: Código de verificación inválido)

  • Haz clic en Confirmar error en el panel de consejos

mceclip7.jpg

C. Configura un éxito en la resolución del Captcha

  • Haz clic en Configurar con éxito la resolución de CAPTCHA para pasar por el último paso

mceclip8.jpg
  • Introduce el texto que aparece en el cuadro de imagen

  • Haz clic en Enviar respuesta CAPTCHA y completa la configuración

mceclip9.jpg

El captcha de imagen ha sido resuelto. El paso Resolver CAPTCHA se añadirá al flujo de trabajo y también podrá modificar la configuración bajo el flujo de trabajo.

mceclip10.jpg

Nota:

hCaptcha y ReCaptcha V2 pueden ser detectados automáticamente, por lo que no es necesario configurar XPath para localizarlos. Image CAPTCHA no puede ser detectado sin XPath. Es necesario prestar atención al XPath en la configuración.

¿Ha quedado contestada tu pregunta?