Todas las colecciones
Glosario
¿Qué es el modo avanzado?
¿Qué es el modo avanzado?
Actualizado hace más de una semana

Este tutorial tiene como objetivo ayudarte a comprender qué es el Modo Avanzado de Octoparse, por qué debes usarlo y cómo te ayudará a lograr lo que necesitas.

El Modo Avanzado permite a cualquier persona extraer datos de cualquier sitio web con solo apuntar y hacer clic, sin código. Si estás buscando extraer datos de páginas web que son un poco más complicadas o si aún has extraído los datos con éxito mediante la detección automática, te recomendamos encarecidamente que pruebes el Modo Avanzado y descubrirás verdaderamente el mundo de posibilidades con él:

  • Scrapear información de casi cualquier página web

  • Extraer datos como texto, URL, imagen y HTML

  • Interactuar con páginas web para realizar acciones complicadas como autenticación de inicio de sesión, búsqueda de palabras clave y cambio a través de un menú desplegable

  • Ajustar tu flujo de trabajo, como agregar tiempo de espera, modificar XPath y reformatear los datos extraídos

Iniciar una tarea en Modo Avanzado

Hay dos formas de iniciar rápidamente una nueva tarea con el Modo Avanzado:

1) Ve directamente a la página de inicio, ingresa la (s) URL (s) de la página web de destino y presiona "Iniciar".

mceclip1.png

2) Justo debajo del logotipo de Octoparse, coloca el cursor sobre "+ Nuevo" y haz clic en "Modo Avanzado".

mceclip2.png

Conocer la interfaz del Modo Avanzado

Interfaz_Modo_Avanzado.png

El navegador integrado: Una vez que hayas ingresado la URL de una página web de destino, la página web se cargará en el navegador integrado de Octoparse. Puedes navegar por el sitio web en el modo de Navegación o puede hacer clic para extraer los datos que necesitas en el modo de Selección.

El flujo de trabajo: A medida que interactúas con la página web, como abrir una página web y hacer clic en un elemento / botón de la página, todo el proceso se define automáticamente en forma de flujo de trabajo.

Panel de Tips: Octoparse utiliza Tips para "hablar" contigo durante el proceso de extracción, para guiarte durante el proceso de configuración de tareas.

Vista previa de datos: Obtendrás una vista previa de los datos seleccionados. También puedes cambiar el nombre de los campos de datos o eliminar los que no son necesarios.

Cómo utilizar el Modo Avanzado para crear tareas manualmente

Para crear una tarea manualmente usando el Modo Avanzado, omita el proceso de detección automática haciendo clic en "Desactivar la detección automática".

mceclip0.png

Luego, simplemente haz clic en los datos que necesitas en la página web. Sigue los consejos que se proporcionan en el panel de Tips para continuar con el proceso de configuración de tareas. Los pasos generales de construcción son sencillos:

Seleccionar los datos que necesita en la página web >> Seguir las instrucciones proporcionadas en Tips para acción >> Revisar su flujo de trabajo >> Ejecutar la tarea para obtener datos

A la luz de la naturaleza de la web, las páginas web cambian todo el tiempo, y diferentes personas pueden necesitar diferentes conjuntos de datos. El Modo Avanzado se crea con la flexibilidad y versatilidad necesarias para manejar todo tipo de necesidades de raspado mientras se asegura de que aún no sea compatible con codificadores con la guía paso a paso proporcionada en Tips para acción.

Seleccione los datos que te gustaría extraer en la página web

Dentro del navegador integrado, usa clics para seleccionar cualquier dato que te gustaría extraer en la página web. Mientras se desplaza sobre la página web, Octoparse intenta "comprender" lo que te gustaría obtener, ya que resalta los elementos de la página alrededor del cursor. Puedes mover el cursor ligeramente si el área resaltada no está del todo cerca de lo que te gustaría extraer.

Una vez que tengas los datos que necesitas resaltados en azul, puedes hacer clic para confirmar la selección. Ahora, el elemento de página seleccionado debe resaltarse en verde, lo que indica que se ha seleccionado correctamente.

Repite el mismo proceso si deseas extraer varios elementos en la misma página.

Extraer_datos_que_necesites.gif

Sigue las instrucciones proporcionadas en Tips para acción

Octoparse intenta guiarte a través del proceso de configuración de tareas ofreciendo todos los pasos siguientes posibles en el Panel de Tips de acción. Es una forma de que Octoparse "hable" contigo.

Cada vez que selecciones un elemento, aparecerá el panel de Tips de acción con una serie de opciones entre las que puedes elegir. Simplemente sigue las instrucciones proporcionadas y elige cómo te gustaría proceder con los datos seleccionados. Por ejemplo, si deseas raspar el texto de los elementos seleccionados, puedes elegir "Extraer el texto del elemento seleccionado"; o Si deseas hacer clic en el elemento seleccionado para ir a la página vinculada, puedes elegir "Hacer clic en el elemento".

mceclip2.png

Octoparse intenta guiarlo a través del proceso de creación de tareas ofreciendo todos los pasos siguientes posibles en el Panel de Tips de acción. Es una forma de que Octoparse "hable" contigo.

A continuación, se muestran las acciones más utilizadas:

Extraer el texto del elemento - capturar el texto del elemento de página seleccionado

Haga clic en el elemento - hacer clic en el elemento de página seleccionado

Extraer el HTML del elemento seleccionado - capturar la cadena de código fuente del elemento seleccionado

Hacer clic en bucle en un solo elemento - hacer clic en el elemento seleccionado repetidamente (similar a Hacer clic en bucle en la página siguiente o Hacer clic en bucle en single URL)

Extraer URL del seleccionado - capturar la URL del enlace seleccionado (cuando se selecciona un enlace)

Extraer la URL de la imagen seleccionada - capturar la URL de la imagen (cuando se selecciona una imagen)

Seleccionar todo - seleccionar todos los elementos similares (cuando se detectan elementos similares)

Tips:

  • En los casos en los que un elemento de destino es difícil de identificar con el cursor, puedes utilizar las etiquetas HTML ubicadas en la parte inferior del panel de Tips de acción para refinar la selección.

  • El icono

    es el botón Expandir selección, que se puede usar para expandir la selección actual para incluir la etiqueta html externa. Por ejemplo, si deseas extraer toda la parte que rodea al elemento seleccionado, puedes seguir haciendo clic en el botón expandir hasta que toda la parte se resalte en verde.

3. Revisar el flujo de trabajo

A medida que avanzas en la configuración de la tarea de raspado, Octoparse crea simultáneamente un flujo de trabajo de acuerdo con la forma en que has interactuado con la página web y con el Panel de Tips.

Un ejemplo de flujo de trabajo:

mceclip3.png

Algunas cosas para revisar antes de ejecutar la tarea:

1) Si las acciones del flujo de trabajo están ordenadas correctamente.

Puede reorganizar las acciones del flujo de trabajo arrastrando y soltando en el lugar correcto.

Modificar_flujo_de_trabajo.gif

2) Si cada acción necesita ser ajustada con más configuraciones.

Puedes verificar si cada acción se ha configurado correctamente haciendo clic en la acción específica. Para modificar la configuración de una acción, y realiza cambios cuando sea necesario.

mceclip6.png

Tips!

Consulta este tutorial para obtener más información sobre cómo revisar tu flujo de trabajo paso a paso:

4. Ejecutar la tarea

Ahora que has terminado de crear y probar tu tarea, puedes ejecutarla haciendo clic en el botón Ejecutar. Puedes ejecutar la tarea localmente en el dispositivo o ejecutarla en la nube.

mceclip0.png

Nota:

Aquí hay algunos tutoriales sobre cómo tratar con diferentes tipos de estructuras de página:

Encuentra más tutoriales en Interactuar con Páginas Web

¿Ha quedado contestada tu pregunta?