Cuando quiere scrapear un sitio web de destino, primero debe tener una URL específica para comenzar. Ir a la Página Web en Octoparse puede simular la acción de abrir una URL específica. Si es posible, es mejor que tengamos una URL de página web directa que tenga datos que desee extraer en lugar de un enlace de dominio de sitio web general.
Ahora, tiene una URL de sitio web específica o una lista de URL de páginas web. ¡Empecemos!
- Abrir Una Página Web
- Abrir Múltiples URLs en el Bucle
- Configuración en "Ir a la Página Web"
- Página Web No Carga
1. Abrir Una Página Web
Si tiene una única URL de página web para abrir (una URL de página de resultados de búsqueda de ejemplo de eBay: https://www.ebay.com/sch/i.html?_from=R40&_trksid=p2380057.m570.l1313.TR12.TRC2.A0.H0.Xcharger.TRS0&_nkw=charger&_sacat=0),
aquí hay 3 maneras de introducir la URL de la página web.
- Página de Inicio de Octoparse
Puede introducir directamente la URL en la barra de búsqueda y luego hacer clic en "Start" para comenzar.
- Menú Lateral de Navegación
Puede encontrar el botón "+ New" en el menú de navegación lateral. Haga clic en él y luego seleccione la primera opción: Modo avanzado.
Luego, se abrirá la página de configuración "New Task". Puede ingresar la URL manualmente en el cuadro Website y luego hacer clic en "Guardar" para comenzar.
Se generará automáticamente una acción Ir a la Página Web en el flujo de trabajo.
- Tarea en el Workflow
Durante la configuración de la tarea, si desea agregar una nueva URL de página al flujo de trabajo, puede encontrar el icono "+" que se muestra en el flujo de trabajo entre cada paso cuando mueve el ratón por el flujo de trabajo.
Después de hacer clic en el icono "+", habrá varias opciones en el menú desplegable. Haga clic en el botón cargar más para encontrar la opción de "Abrir página" y haga clic en ella.
Entonces se generará un nuevo paso de "Ir a la Página Web". Haga doble clic en el paso para abrir la configuración de la acción para que pueda introducir la URL de la nueva página. Haga clic en "Aceptar" para guardar la configuración.
2. Abrir Múltiples URLs en el Bucle
Si tiene varias URL de páginas web que comparten una estructura web similar, no es necesario crear tarea una por una, puede introducir las URLs a la vez.
Las formas de abrir varias URL son en realidad las mismas que para abrir una sola página web.
- Página de Inicio de Octoparse
Si tiene una lista de URLs, también puede copiarlas directamente (por ejemplo, desde un archivo de Excel) y pegarlas en la barra de búsqueda. Se detectarán las URLs válidas y, a continuación, podrá hacer clic en el botón "Inicio" para comenzar.
Se generará un cuadro de " Bucle de URLs" que incluye todas las URL que introduce. Puede hacer doble clic en el cuadro "Bucle de URL" para comprobar o modificar las URL en el elemento de bucle.
- Menú Lateral de Navegación lateral y 4 Formas de Introducir URLs
Puede encontrar el botón "+ Nuevo" en el menú lateral de navegación lateral. Haga clic en él y luego seleccione la primera opción: Modo avanzado.
Luego, se abrirá la página de configuración "Nueva tarea". Hay 4 formas de introducir URLs. Puede elegir según su situación. Verifique los detalles en este tutorial: Batch URL input.
Si desea ingresar las URL manualmente, recuerde ingresar una URL cada línea o puede copiar directamente desde una hoja de Excel con una lista de URL.
- Task Workflow
Si desea agregar una lista de URLs en el flujo de trabajo, puede hacer clic en el icono "+" para agregar algunos pasos necesarios.
Primero, debe agregar un elemento "Bucle" del menú desplegable. Luego, se agrega un elemento de bucle. Haga doble clic en él para introducir las URL que desea agregar.
En el "Elemento de bucle", seleccione el modo de bucle como Lista de URL y haga clic en elpara introducir URLs.
Después de guardar la configuración, se generará un "Elemento de bucle" con "Ir a la página web".
3. Configuración en "Ir a la Página Web"
Cuando hace doble clic en "Ir a la Página Web" en el flujo de trabajo, puede ajustar la configuración de este paso según el estado del sitio web y su conexión a Internet.
- Configuración general y "Antes de renderizar la página"
Puede ajustar el "Tiempo de espera" si la página web tarda bastante en cargarse. También puede cambiar la URL de la página web en la barra de URL.
"Cargar URLs en el bucle" debe estar marcado solo cuando necesite abrir URL de la lista de bucle.
En la sección "Antes de renderizar de la página", puede establecer un tiempo de espera y una cookie para este paso. Se puede configurar "Esperar antes de la acción" para controlar los intervalos de apertura de cada URL. En cuanto a la configuración de cookies, se usa con frecuencia cuando la página web requiere iniciar sesión para acceder.
- "Después de cargar la página"
La configuración más utilizada es la de desplazamiento hacia abajo. Puede elegirlo si la página requiere desplazarse hacia abajo para cargar el contenido.
Primero, debe elegir la forma de Desplazamiento, "al final de la página" o "para una pantalla".
Luego, configure "Repeticiones" (cuántos tiempos de desplazamiento hacia abajoque desea tener) y "Tiempo de espera" (tiempo de intervalo entre cada desplazamiento para permitir que los nuevos datos se carguen después del desplazamiento).
- "Reintentar"
Puede establecer la configuración "Reintentar" para volver a cargar la página si la página actual contiene o no texto / el elemento que desea.
4. Página Web No Carga
A veces, una página web no puede cargarse bien en el navegador integrado de Octoparse. Solo recibe una página en blanco.
En este caso, puede hacer clic en el icono de configuración en la esquina superior izquierda para modificar la configuración de la tarea.
Puede ir a "Browse Ver." en "Ejecutar Configuración" para cambiar a otro navegador.
Hay muchas opciones debajo del "Browser Ver." Elija una y haga clic en "Guardar" para volver a la página anterior.
Luego, haga clic en el icono de "Recargar Página Web" para actualizar la página y ver si la página web se puede cargar bien.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.