En general, una tarea creada en Octoparse comienza con la apertura de la página web de destino. Para facilitar este paso, proporcionamos dos funciones para ayudar: bloqueo de anuncios y borrar caché. Utilizar estas funciones correctamente puede acelerar enormemente su proceso de raspado web.
Las características cubiertas en este tutorial son:
Bloqueo de anuncios
La velocidad de extracción de un rastreador se ve afectada por la velocidad de carga de la página. Si aparecen muchos anuncios inesperados en la página web, como pancartas y ventanas emergentes, la página se cargará lentamente y perderá su tiempo. El bloqueo de anuncios puede reducir sus solicitudes de página y, por lo tanto, optimizar el tiempo de carga.
Cómo bloquear anuncios
Hay dos formas en Octoparse para configurar el "Bloqueo de anuncios".
1. Seleccione el paso de "Ir a la página web", puede localizar fácilmente "Bloqueo de anuncios" en "Opciones avanzadas".
2. O haga clic en "Configuración", luego puede ver la opción "Bloquear anuncios".
¡Consejos! El uso de la técnica de bloqueo de anuncios puede cambiar la estructura de algunas páginas web. Si es así, ajuste el XPath para reubicar los elementos. |
Ahora Octoparse ha "recordado" la nueva cookie.
Limpiar cache
En algunos casos, por ejemplo, si necesita borrar las cookies recordadas por extraer datos detrás de un inicio de sesión, Octoparse también ofrece la opción de borrar la memoria caché para que pueda volver a cargar la página.
Cómo borrar el caché
1. Seleccione el paso "Ir a la página web", "Borrar caché" se puede encontrar fácilmente en "Configuración de caché".
2. Una vez abierta la página, si desea que Octoparse recuerde la nueva cookie, también es fácil.
- Haga clic en "Usar cookie especificada"
- Haga clic en "Cargar cookie desde la página web actual"
¡Consejos! 1. Como las cookies vienen en diferentes formas, su período de validez también es diferente. Algunos permanecen más tiempo, mientras que otros caducan tan pronto como se cierra el navegador. En Octoparse, las cookies guardadas ya no funcionarán si caducan. Luego debe "Borrar caché" y volver a cargar la cookie. 2. La configuración de caché es bastante importante, especialmente para los sitios web que requieren el inicio de sesión, obtenga más información sobre cómo extraer datos detrás de un inicio de sesión
|
Artículos relacionados:
Extraer datos detrás de un inicio de sesión
Tutorial de caso | precios de scraping de eBay
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.