Todas las colecciones
Cursos Integrados de Octoparse
Extraer datos del nivel de página (metadatos, URL de la página, título de la página, código fuente)
Extraer datos del nivel de página (metadatos, URL de la página, título de la página, código fuente)
Actualizado hace más de una semana

En este tutorial, te mostraremos cómo usar Octoparse para extraer datos a nivel de página, incluidos la URL de la página web, el título de la página, la meta descripción, las meta palabras clave y el código fuente HTML.

Cómo agregar los datos

1.Haz clic para mostrar la "Vista previa de datos" en la esquina superior derecha de la interfaz de configurtación de tarea.

mceclip2.png

2.En el panel de "Vista previa de datos", puedes hacer clic en el icono

mceclip1.png

para ver las opciones del menú desplegable.

mceclip0.png

3. Desplázate o haz clic en "Datos a nivel de página" para seleccionar los datos a nivel de página que desees.

Los datos de nivel de página seleccionados se agregarán automáticamente en "Campo de datos".

datos_a_nivel_de_pagina.png

4. Cambia el nombre del campo de datos según tus necesidades

mceclip0.png

Significado de los campos

  • URL de la página: agrega la URL de la página actual junto con los datos correspondientes

    Es útil cuando deseas verificar los campos de datos que faltan en una página: ¿Qué hacer con esos campos en blanco que obtuve en el resultado extraído?

  • Título de la página: scrapea el contenido de la etiqueta del título.

    mceclip4.png

    Es una breve descripción de una página web y aparece en la parte superior de la ventana del navegador.

    mceclip3.png
  • Meta descripción: scrapea el contenido de la etiqueta de la meta descripción

    mceclip2.png

    La etiqueta contiene un resumen del contenido de la página.

  • Meta palabra clave: scrapea el contenido de la meta etiqueta de palabra clave

    mceclip8.png

    Scrapea el título de la página, la meta descripción y las meta palabras clave son útiles cuando los usuarios necesitan mejorar su SEO.

  • Código fuente HTML: el código HTML completo de la página web.

¿Ha quedado contestada tu pregunta?