Raspar datos de IFrame
Actualizado hace más de una semana

¿Qué es el IFrame?


Un IFrame (Inline Frame o marco en línea) es un código HTML incrustado dentro de otro documento HTML en un sitio web. Se utiliza para insertar contenido de otra fuente, por ejemplo, un anuncio o una tabla. Un marco en línea (Inline Frame) se especifica mediante la etiqueta <iframe>.

<iframe src="URL"></iframe>

Si bien los iframes son útiles para mantener una separación entre un sitio y el contenido externo, a menudo se convierten en obstáculos para los raspadores web.

¿Cómo hacer un raspado desde un iframe con Octoparse?

El navegador incorporado de Octoparse detecta automáticamente los iframes, por lo que todo lo que tienes que hacer es seleccionar el elemento dentro del iframe y extraerlo de manera normal, como si no existiera nada llamado iframe en Internet.

Cuando extraigas datos dentro de un iframe, verifica su XPath de elemento generado automáticamente para ver si Octoparse ya lo ha detectado.

Sin embargo, ten en cuenta que Octoparse localiza los elementos en iframes mediante la combinación de IFrame XPath y Matching XPath. Si el XPath generado automáticamente no es preciso, deberás reescribir ambas expresiones XPath.

¿Qué ocurre si Octoparse no reconoce el iframe automáticamente?

No te preocupes, hay dos soluciones para este tipo de situación.

  1. Extrae cualquier elemento de la página como marcador de posición de campo de datos y reescribe su XPath para localizar el elemento iframe en su lugar. Recuerda ingresar tanto el XPath del iframe como el XPath de coincidencia al modificar el XPath.

  2. Obtén la dirección del enlace del iframe desde el código fuente y úsala como URL de inicio para una nueva tarea.

  • Presiona F12 o Ctrl + Shift + I para abrir las Herramientas de desarrollo en Chrome y localiza el código fuente del elemento iframe. Si hay varios enlaces de iframes en el código fuente, asegúrate de estar tratando con el que contiene los datos que necesitas.

  • Haz clic derecho en la etiqueta src del iframe y copia la dirección del enlace para obtener la URL.

  • Usa la URL para crear una tarea, y es tan sencillo como raspar una página normal sin iframe.

¿Puede Octoparse raspar desde un iframe dentro de otro iframe?

No, Octoparse no puede raspar desde un iframe dentro de otro iframe. Sin embargo, aún puedes obtener el enlace del iframe desde el código fuente en un navegador primero y luego usarlo como la URL de inicio para crear una nueva tarea.

¿Ha quedado contestada tu pregunta?