Hay algunos sitios web que pueden ser muy sensibles al web scraping y tomar algunas medidas serias contra el scraping, como el bloqueo de IP para detener cualquier posible actividad de scraping. Los servidores proxy de configuración manual en Octoparse son particularmente útiles si desea acceder al sitio web con servidores proxy externos (o de un país específico) o si prefiere usar sus propios servidores proxy en lugar de usar nuestras funciones de rotación automática de IP de cloud extraction .
A diferencia de otras utilidades de scraping que cobran por la función de configuración de proxies externos, Octoparse permite que los usuarios gratuitos y premium agreguen proxies personalizados para la rotación de IP. Bloqueo de su dirección IP es uno de los problemas que puede enfrentar al eliminar sitios web. Por lo tanto, un proxy o servidor proxy es una parte esencial del raspado web y se usa ampliamente para el web scraping anónimo.
Para usar proxies externos para la rotación:
Haga clic en "Configuración" sobre el flujo de trabajo una vez que haya terminado la configuración.
(La opción "Configuración" solo está disponible cuando hay un paso "Extraer datos" en el flujo de trabajo).
Seleccione "Usar proxies" y haga clic en "Configuración" para agregar proxies personalizados. Actualmente, Octoparse solo admite proxy HTTP. La dirección IP y el número de puerto del servidor proxy están separados por dos puntos. Por ejemplo58.22.214.29:2318.
Si tiene una lista de IP, agregue cada proxy en "Proxies IP" en una nueva línea.
Haga clic en "Aceptar" y "Guardar" para guardar sus cambios. Octoparse ejecutará la rotación de acuerdo con su configuración cuando ejecute la tarea localmente.
¡Consejos! 1. La personalización de proxies para rotación solo está disponible para extracción local. (Tenga en cuenta que actualmente Octoparse no proporciona proxies para la rotación de IP de extracción local. Para obtener proxies externos, hay muchos servidores proxy gratuitos y de pago disponibles en la web). 2. Para el plan estándar/profesional de Octoparse, cuando una tarea se ejecuta con cloud extraction
(Conozca más sobre los beneficios del servicio en la nube Octoparse |
Use un proxy para cambiar la dirección IP para iniciar sesión en Octoparse - si no puede iniciar sesión en Octoparse debido a que la intranet de su estudiante o empresa restringe alguna solicitud externa, use un proxy para iniciar sesión para usar Octoparse.
Para hacer esto, haga clic en "Usar proxy IP" e ingrese la información solicitada:
Haga clic en el botón "Probar" para probar si la conexión es exitosa. Si tiene éxito, le indicará:
Artículos relacionados:
Ejecute tareas en la máquina local
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.