Hay diferentes tipos de información en las páginas web, como texto, imágenes, etc. Octoparse puede manejar la extracción de información diferente. En este tutorial, te mostraremos cómo usar Octoparse para extraer texto, URL, URL de imagen, HTML y valor de atributo.
2) Extraer la URL de un enlace o una imagen
3) Extraer HTML interno/externo
1) Extraer texto
La mayoría de los datos se representan como texto legible en la web, como artículos de noticias, información de productos y blogs.
Veamos cómo seleccionar y extraer los datos de texto con Octoparse.
1. Haz clic en los datos de destino que desees
Cuando hagas clic en el elemento que necesitas, el área de selección estará en un cuadro verde.
2. Extrae texto
Haz clic en "Extraer texto del elemento seleccionado" para extraer el texto.
2) Extraer la URL de un enlace o una imagen
Una URL es un hipervínculo. Con un solo clic en una URL, puedes abrir una nueva página web o ir a un nuevo sitio web, como sucede cuando haces clic en el título de un libro en Amazon.
Además de una página web, la URL también te permite acceder al recurso de archivo específico a través de Internet, como una imagen o un documento PDF. Si obtienes la URL, puede descargar el archivo o la imagen correspondiente de Internet a través de la URL.
Veamos cómo seleccionar y extraer la URL de un enlace o una imagen con Octoparse.
Extraer la URL de un enlace
1. Haz clic en el enlace que desees
Cuando hagas clic en el enlace / imagen que necesitas, el área de selección estará en un cuadro verde.
Tips! Cuando seleccionas un elemento con URL, la etiqueta seleccionada en la parte inferior de "Tips" debe ser "A", que significa un ancla que generalmente vincula una página a otra. Asegúrate de seleccionar el área correcta. |
2. Extraer la URL
Haz clic en "Extraer la URL del elemento seleccionado" en Tips para obtener la URL.
Extraer la URL de la imagen
1. Haz clic en la imagen que necesites
Tips Cuando seleccionas una imagen, la etiqueta seleccionada en la parte inferior de "Tips" debe ser "IMG". |
2. Extraer la URL de la imagen
Haz clic en "Extraer la URL de la imagen seleccionada" para obtener la URL.
Tips ¿Puedo usar Octoparse para obtener directamente una imagen, no su URL, de la página web? Desafortunadamente, no puedes usar Octoparse para extraer la imagen en sí. Si quieres descargar imágenes, puedes raspar las URL de las imágenes con Octoparse primero y luego descargar imágenes de una lista de URL con herramienta para "descargar de URL" |
3) Extraer HTML interno/externo
A diferencia del texto y la URL, los datos, como los iconos, no están disponibles para extraerlos directamente. Cuando desees extraer algunos contenidos visuales que no sean de texto, como la calificación por estrellas, debes extraer el HTML interno/externo de estos contenidos.
Además de los iconos, también puedes extraer textos ocultos, cuadros y gráficos de una página web extrayendo primero el HTML de estos elementos. Después de obtener el código HTML, debes aplicar expresiones regulares para limpiar los datos.
Primero, veamos cómo seleccionar y extraer HTML interno/externo con Octoparse.
1. Haz clic en los datos de destino que quieres
Cuando hagas clic en el elemento que necesitas, el área de selección estará en un cuadro verde.
2. Extraer HTML interno/externo
Haz clic en "Extraer HTML interno/externo del seleccionado" en el panel "Tips".
Tips! Octoparse proporciona funciones y herramientas útiles para que apliques expresiones regulares. Artículos relacionados: |
4) Extraer valor de atributo
El atributo está dentro del código HTML y proporciona información adicional sobre los elementos HTML. Por ejemplo, la calificación con estrellas generalmente se almacena en el atributo. Por lo general, viene en pares de nombre/valor como nombre = "valor". Octoparse puede ayudar a raspar el valor directamente.
1. Selecciona el elemento (aquí tomamos la calificación por estrellas como ejemplo)
2. Extrae el texto o HTML del elemento.
3. Ve a la configuración de "Extraer datos" y haz clic en para buscar la opción "Personalizar campo de datos"
4. Selecciona "Extraer atributo" y elige el atributo de destino de la lista desplegable
Tips! 1. Puedes modificar para extraer otros tipos de información del elemento utilizando el "Campo de datos personalizados". Por ejemplo, has seleccionado extraer el texto, pero luego quieres raspar el código HTML del elemento. Puedes ir al "campo Personalizar datos" para seleccionar "Extraer el HTML externo". ¿Cómo puedo extraer código HTML de determinado campo de datos? 2. Todo tipo de datos se almacenan como formato de texto cuando se exportan a un archivo. |
Si tienes alguna pregunta, no dudes en enviar un ticket a nuestro equipo de Soporte.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.