Todas las colecciones
Cursos Integrados de Octoparse
Extraer texto/URL/imagen/HTML/atributo del elemento
Extraer texto/URL/imagen/HTML/atributo del elemento
Actualizado hace más de una semana

Hay diferentes tipos de información en las páginas web, como texto, imágenes, etc. Octoparse puede manejar la extracción de información diferente. En este tutorial, te mostraremos cómo usar Octoparse para extraer texto, URL, URL de imagen, HTML y valor de atributo.

1)Extraer Texto

La mayoría de los datos se representan como texto legible en la web, como artículos de noticias, información de productos y blogs.

Veamos cómo seleccionar y extraer los datos de texto con Octoparse.

1. Haz clic en los datos de destino que desees

Cuando hagas clic en el elemento que necesitas, el área de selección estará en un cuadro verde.

2. Extrae texto

Haz clic en "Extraer texto del elemento seleccionado" para extraer el texto.

extraer_texto_del_lemento.gif

2)Extraer la URL de un enlace o una imagen

Una URL es un hipervínculo. Con un solo clic en una URL, puedes abrir una nueva página web o ir a un nuevo sitio web, como sucede cuando haces clic en el título de un libro en Amazon.

Además de una página web, la URL también te permite acceder al recurso de archivo específico a través de Internet, como una imagen o un documento PDF. Si obtienes la URL, puede descargar el archivo o la imagen correspondiente de Internet a través de la URL.

Veamos cómo seleccionar y extraer la URL de un enlace o una imagen con Octoparse.

Extraer la URL de un enlace

1. Haz clic en el enlace que desees

Cuando hagas clic en el enlace / imagen que necesitas, el área de selección estará en un cuadro verde.

Tips!

Cuando seleccionas un elemento con URL, la etiqueta seleccionada en la parte inferior de "Tips" debe ser "A", que significa un ancla que generalmente vincula una página a otra. Asegúrate de seleccionar el área correcta.

2. Extraer la URL

Haz clic en "Extraer la URL del elemento seleccionado" en Tips para obtener la URL.

extraer_URL_del_elemento.gif

Extract the image URL

1. Haz clic en la imagen que necesites

extraer_URL_de_imagen.gif

Tips!

¿Puedo usar Octoparse para obtener directamente una imagen, no su URL, de la página web?

Desafortunadamente, no puedes usar Octoparse para extraer la imagen en sí. Si quieres descargar imágenes, puedes raspar las URL de las imágenes con Octoparse primero y luego descargar imágenes de una lista de URL con herramienta para "descargar de URL"

.

3) Extraer HTML interno/externo

A diferencia del texto y la URL, los datos, como los iconos, no están disponibles para extraerlos directamente. Cuando desees extraer algunos contenidos visuales que no sean de texto, como la calificación por estrellas, debes extraer el HTML interno/externo de estos contenidos.

Además de los iconos, también puedes extraer textos ocultos, cuadros y gráficos de una página web extrayendo primero el HTML de estos elementos. Después de obtener el código HTML, debes aplicar expresiones regulares para limpiar los datos.

Primero, veamos cómo seleccionar y extraer HTML interno/externo con Octoparse.

1. Haz clic en los datos de destino que quieres

Cuando hagas clic en el elemento que necesitas, el área de selección estará en un cuadro verde.

2. Extraer HTML interno/externo

Haz clic en "Extraer HTML interno/externo del seleccionado" en el panel "Tips".

extraer_HTML_del_elemento.gif

Tips!

Octoparse proporciona funciones y herramientas útiles para que apliques expresiones regulares.

Artículos relacionados:

4) Extraer valor de atributo

El atributo está dentro del código HTML y proporciona información adicional sobre los elementos HTML. Por ejemplo, la calificación con estrellas generalmente se almacena en el atributo. Por lo general, viene en pares de nombre/valor como nombre = "valor". Octoparse puede ayudar a raspar el valor directamente.

1. Selecciona el elemento (aquí tomamos la calificación por estrellas como ejemplo)

2. Extrae el texto o HTML del elemento.

extraer_atributo_del_elemento.gif

3. Coloca el cursor sobre el campo de nombre, puedes ver

. Haz clic en él y ve a "Personalizar campo" y "Extraer atributo".

mceclip0.png

Tips!

1. Puedes modificar para extraer otros tipos de información del elemento utilizando el "Campo de datos personalizados". Por ejemplo, has seleccionado extraer el texto, pero luego quieres raspar el código HTML del elemento. Puedes ir al "campo Personalizar datos" para seleccionar "Extraer el HTML externo".

mceclip1.png

2. Todo tipo de datos se almacenan como formato de texto cuando se exportan a un archivo.

¿Ha quedado contestada tu pregunta?