CAPTCHA es una técnica anti-scraping muy común aplicada por muchos sitios web en diferentes formas.
Para ayudar a mejorar la eficiencia del scraping, Octoprase puede manejar los tres tipos de Captcha automáticamente: hCaptcha, ReCaptcha V2, e ImageCaptcha.
hCaptcha y ReCaptcha V2 pueden ser resueltos de manera similar, mientras que es más complicado configurar una resolución para tratar con ImageCaptcha.
Sigue este tutorial y podrás tener una comprensión básica de cada Captcha y manejarlos con Octoparse.
1. ¿Qué son hCaptcha y ReCaptcha V2?
hCaptcha normalmente combina:
- un botón I am human(soy humano) con el logotipo de hCaptcha
- y preguntas sencillas (en imágenes) que son fáciles para los humanos y difíciles para las máquinas:
ReCaptcha V2
La mayoría de los ReCaptcha V2 suelen tener un botón I'm not a robot(No soy robot); sin embargo, a veces, pueden contener preguntas sencillas similares a las de hCaptcha.
2. Cómo resolver hCaptcha y ReCaptcha V2
Haz clic en el recuadro Resolver CAPTCHA
Selecciona hCaptcha/ReCaptcha V2 como tipo de CAPTCHA
Haz clic en Aplicar para guardar la configuración
Nota: El hCaptcha y el ReCaptcha no se resolverán automáticamente hasta la ejecución de los datos. Por lo tanto, es necesario activar el Modo de Navegador
y resolverlo manualmente para proceder al crear la tarea.
3. ¿Qué es ImageCaptcha?
ImageCaptcha es la forma original de verificar a los humanos. Puede utilizar palabras o frases conocidas o combinaciones aleatorias de dígitos y letras. Algunos ImageCaptchas también incluyen variaciones en las mayúsculas.
4. Solución para ImageCaptcha
Para seguir el tutorial y resolver ImageCaptcha, podemos utilizar la siguiente URL:
https://democaptcha.com/demo-form-eng/image.html
A. Selecciona el Cuadro de Entrada y el Cuadro de Imagen para el Captcha
Haz clic en el Cuadro de Entrada para el Captcha
Selecciona Resolver Captcha en el panel de Consejos
Haz clic en el Cuadro de imagen
Haz clic en Confirmar en el panel de Consejos
B. Configura un fallo de resolución de Captcha
Ahora, necesitamos entrenar a Octoparse para que resuelva el Captcha estableciendo un fallo de resolución.
Haz clic en el mensaje de error (en este caso - Se han detectado algunos errores en tu formulario: Código de verificación inválido)
Haz clic en Confirmar error en el panel de consejos
C. Configura un éxito en la resolución del Captcha
Haz clic en Configurar con éxito la resolución de CAPTCHA para pasar por el último paso
Introduce el texto que aparece en el cuadro de imagen
Haz clic en Enviar respuesta CAPTCHA y completa la configuración
El captcha de imagen ha sido resuelto. El paso Resolver CAPTCHA se añadirá al flujo de trabajo y también podrá modificar la configuración bajo el flujo de trabajo.
Nota:
hCaptcha y ReCaptcha V2 pueden ser detectados automáticamente, por lo que no es necesario configurar XPath para localizarlos. Image CAPTCHA no puede ser detectado sin XPath. Es necesario prestar atención al XPath en la configuración.