CAPTCHA es una técnica anti-scraping muy común aplicada por muchos sitios web en diferentes formas.
Para ayudar a mejorar la eficiencia del scraping, Octoprase puede manejar los tres tipos de Captcha automáticamente: hCaptcha, ReCaptcha V2, e ImageCaptcha.
hCaptcha y ReCaptcha V2 pueden ser resueltos de manera similar, mientras que es más complicado configurar una resolución para tratar con ImageCaptcha.
Sigue este tutorial y podrás tener una comprensión básica de cada Captcha y manejarlos con Octoparse.
- ¿Qué son hCaptcha y ReCaptcha V2?
- Resolución para hCaptcha y ReCaptcha V2
- ¿Qué es ImageCaptcha?
- Resolución de ImageCaptcha
1. ¿Qué son hCaptcha y ReCaptcha V2?
- hCaptcha normalmente combina:
- un botón I am human(soy humano) con el logotipo de hCaptcha
- y preguntas sencillas (en imágenes) que son fáciles para los humanos y difíciles para las máquinas:
- ReCaptcha V2
La mayoría de los ReCaptcha V2 suelen tener un botón I'm not a robot(No soy robot); sin embargo, a veces, pueden contener preguntas sencillas similares a las de hCaptcha.
2. Cómo resolver hCaptcha y ReCaptcha V2
- Haz clic en
en el flujo de trabajo
- Selecciona Solve CAPTCHA
- Haz clic en el recuadro Resolver CAPTCHA
- Selecciona hCaptcha/ReCaptcha V2 como tipo de CAPTCHA
- Haz clic en Aplicar para guardar la configuración
3. ¿Qué es ImageCaptcha?
ImageCaptcha es la forma original de verificar a los humanos. Puede utilizar palabras o frases conocidas o combinaciones aleatorias de dígitos y letras. Algunos ImageCaptchas también incluyen variaciones en las mayúsculas.
4. Solución para ImageCaptcha
Para seguir el tutorial y resolver ImageCaptcha, podemos utilizar la siguiente URL:
https://democaptcha.com/demo-form-eng/image.html
- A. Selecciona el Cuadro de Entrada y el Cuadro de Imagen para el Captcha
- B. Configura un fallo de resolución de Captcha
- C. Configura un éxito en la resolución del Captcha
A. Selecciona el Cuadro de Entrada y el Cuadro de Imagen para el Captcha
- Haz clic en el Cuadro de Entrada para el Captcha
- Selecciona Resolver Captcha en el panel de Consejos
- Haz clic en el Cuadro de imagen
- Haz clic en Confirmar en el panel de Consejos
B. Configura un fallo de resolución de Captcha
Ahora, necesitamos entrenar a Octoparse para que resuelva el Captcha estableciendo un fallo de resolución.
- Haz clic en el mensaje de error (en este caso - Se han detectado algunos errores en tu formulario: Código de verificación inválido)
- Haz clic en Confirmar error en el panel de consejos
C. Configura un éxito en la resolución del Captcha
- Haz clic en Configurar con éxito la resolución de CAPTCHA para pasar por el último paso
- Introduce el texto que aparece en el cuadro de imagen
- Haz clic en Enviar respuesta CAPTCHA y completa la configuración
El captcha de imagen ha sido resuelto. El paso Resolver CAPTCHA se añadirá al flujo de trabajo y también podrá modificar la configuración bajo el flujo de trabajo.
Nota:
hCaptcha y ReCaptcha V2 pueden ser detectados automáticamente, por lo que no es necesario configurar XPath para localizarlos. Image CAPTCHA no puede ser detectado sin XPath. Es necesario prestar atención al XPath en la configuración.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.