Ir a la página web
Actualizado hace más de una semana

Cuando quiere scrapear un sitio web de destino, primero debe tener una URL específica para comenzar. Ir a la Página Web en Octoparse puede simular la acción de abrir una URL específica. Si es posible, es mejor que tengamos una URL de página web directa que tenga datos que desee extraer en lugar de un enlace de dominio de sitio web general.

Ahora, tiene una URL de sitio web específica o una lista de URL de páginas web. ¡Empecemos!

1. Abrir Una Página Web

Si tiene una única URL de página web para abrir (una URL de página de resultados de búsqueda de ejemplo de eBay: https://www.ebay.com/sch/i.html?_from=R40&_trksid=p2380057.m570.l1313.TR12.TRC2.A0.H0.Xcharger.TRS0&_nkw=charger&_sacat=0),

aquí hay 3 maneras de introducir la URL de la página web.

  • Página de Inicio de Octoparse

Puede introducir directamente la URL en la barra de búsqueda y luego hacer clic en "Start" para comenzar.

mceclip1.png
  • Menú Lateral de Navegación

Puede encontrar el botón "+ New" en el menú de navegación lateral. Haga clic en él y luego seleccione la primera opción: Modo avanzado.

mceclip3__1_.png

Luego, se abrirá la página de configuración "New Task". Puede ingresar la URL manualmente en el cuadro Website y luego hacer clic en "Guardar" para comenzar.

mceclip4.png

Se generará automáticamente una acción Ir a la Página Web en el flujo de trabajo.

mceclip0.png
  • Tarea en el Workflow

Durante la configuración de la tarea, si desea agregar una nueva URL de página al flujo de trabajo, puede encontrar el icono "+" que se muestra en el flujo de trabajo entre cada paso cuando mueve el ratón por el flujo de trabajo.

mceclip5.png

Después de hacer clic en el icono "+", habrá varias opciones en el menú desplegable. Haga clic en el botón cargar más para encontrar la opción de "Abrir página" y haga clic en ella.

mceclip6.png
mceclip7.png

Entonces se generará un nuevo paso de "Ir a la Página Web". Haga doble clic en el paso para abrir la configuración de la acción para que pueda introducir la URL de la nueva página. Haga clic en "Aceptar" para guardar la configuración.

mceclip8.png
mceclip9.png

2. Abrir Múltiples URLs en el Bucle

Si tiene varias URL de páginas web que comparten una estructura web similar, no es necesario crear tarea una por una, puede introducir las URLs a la vez.

Las formas de abrir varias URL son en realidad las mismas que para abrir una sola página web.

  • Página de Inicio de Octoparse

Si tiene una lista de URLs, también puede copiarlas directamente (por ejemplo, desde un archivo de Excel) y pegarlas en la barra de búsqueda. Se detectarán las URLs válidas y, a continuación, podrá hacer clic en el botón "Inicio" para comenzar.

mceclip10.png

Se generará un cuadro de " Bucle de URLs" que incluye todas las URL que introduce. Puede hacer doble clic en el cuadro "Bucle de URL" para comprobar o modificar las URL en el elemento de bucle.

mceclip11.png
mceclip12.png
  • Menú Lateral de Navegación lateral y 4 Formas de Introducir URLs

Puede encontrar el botón "+ Nuevo" en el menú lateral de navegación lateral. Haga clic en él y luego seleccione la primera opción: Modo avanzado.

mceclip3.png

Luego, se abrirá la página de configuración "Nueva tarea". Hay 4 formas de introducir URLs. Puede elegir según su situación. Verifique los detalles en este tutorial: Batch URL input.

Si desea ingresar las URL manualmente, recuerde ingresar una URL cada línea o puede copiar directamente desde una hoja de Excel con una lista de URL.

mceclip13.png
  • Task Workflow

Si desea agregar una lista de URLs en el flujo de trabajo, puede hacer clic en el icono "+" para agregar algunos pasos necesarios.

mceclip5__1_.png

Primero, debe agregar un elemento "Bucle" del menú desplegable. Luego, se agrega un elemento de bucle. Haga doble clic en él para introducir las URL que desea agregar.

mceclip16.png

En el "Elemento de bucle", seleccione el modo de bucle como Lista de URL y haga clic en el

mceclip111.png

para introducir URLs.

mceclip17.png

Después de guardar la configuración, se generará un "Elemento de bucle" con "Ir a la página web".

mceclip19.png

3. Configuración en "Ir a la Página Web"

Cuando hace doble clic en "Ir a la Página Web" en el flujo de trabajo, puede ajustar la configuración de este paso según el estado del sitio web y su conexión a Internet.

  • Configuración general y "Antes de renderizar la página"

Puede ajustar el "Tiempo de espera" si la página web tarda bastante en cargarse. También puede cambiar la URL de la página web en la barra de URL.

"Cargar URLs en el bucle" debe estar marcado solo cuando necesite abrir URL de la lista de bucle.

En la sección "Antes de renderizar de la página", puede establecer un tiempo de espera y una cookie para este paso. Se puede configurar "Esperar antes de la acción" para controlar los intervalos de apertura de cada URL. En cuanto a la configuración de cookies, se usa con frecuencia cuando la página web requiere iniciar sesión para acceder.

mceclip20.png
  • "Después de cargar la página"

mceclip23.png

La configuración más utilizada es la de desplazamiento hacia abajo. Puede elegirlo si la página requiere desplazarse hacia abajo para cargar el contenido.

Primero, debe elegir la forma de Desplazamiento, "al final de la página" o "para una pantalla".

Luego, configure "Repeticiones" (cuántos tiempos de desplazamiento hacia abajoque desea tener) y "Tiempo de espera" (tiempo de intervalo entre cada desplazamiento para permitir que los nuevos datos se carguen después del desplazamiento).

  • "Reintentar"

mceclip24.png

Puede establecer la configuración "Reintentar" para volver a cargar la página si la página actual contiene o no texto / el elemento que desea.

4. Página Web No Carga

A veces, una página web no puede cargarse bien en el navegador integrado de Octoparse. Solo recibe una página en blanco.

En este caso, puede hacer clic en el icono de configuración en la esquina superior izquierda para modificar la configuración de la tarea.

mceclip25.png

Puede ir a "Browse Ver." en "Ejecutar Configuración" para cambiar a otro navegador.

mceclip28.png

Hay muchas opciones debajo del "Browser Ver." Elija una y haga clic en "Guardar" para volver a la página anterior.

mceclip27.png

Luego, haga clic en el icono de "Recargar Página Web" para actualizar la página y ver si la página web se puede cargar bien.

mceclip29.png
¿Ha quedado contestada tu pregunta?