En este tutorial, le mostraremos cómo usar Octoparse para extraer texto, URL, imagen y HTML.
Pero antes de comenzar, echemos un vistazo a cómo Octoparse scrape los datos que necesita.
Mientras crea una nueva tarea, por lo general comenzará seleccionando los datos deseado en la página web para que Octoparse los scrape. Para seleccionar elementos en la página, debe crear una selección. En general, hay dos pasos para crear la selección:
1. Haga clic en sus datos de destino
2. Seleccione la acción adecuada, como "Seleccionar todo" y "Extraer texto del elemento seleccionado", para realizar desde "Consejos de acción"
Cuando hace clic en el elemento que necesita, el área de selección estará en un cuadro verde. También puede encontrar que hay algunos otros elementos en la página resaltados en un cuadro rojo al mismo tiempo. Esto se debe a que Octoparse descubre de manera inteligente el patrón específico que representa el elemento seleccionado en la página web, y selecciona automáticamente los otros elementos del patrón similar, ya que es posible que desee capturarlos a todos.
Una vez que se crea la selección, todos los elementos similares en varias páginas se detectarán y agregarán a la selección según el patrón. Octoparse ejecutará repetidamente el scraping hasta que se obtenga cada elemento de la selección.
Ahora, has conocido mejor a Octoparse. ¡Veamos cómo seleccionar y extraer tres tipos específicos de datos con Octoparse!
2) Extraer la URL de un enlace o una imagen
3) Extraer HTML interno / externo
1) Extraer texto
La mayoría de los datos se representan como texto legible en la web, como artículos de noticias, información de productos y blog. Entonces, una vez que adquiere la habilidad para extraer datos de texto, cuando luego se combina con otras técnicas como la paginación y la creación de listas, puede lograr el raspado de datos en casi todo tipo de páginas web.
Veamos cómo seleccionar y extraer los datos de texto con Octoparse.
1. Haga clic en los datos de destino que desea
Cuando hace clic en el elemento que necesita, el área de selección estará en un cuadro verde. Elementos similares en la página web se resaltarán en rojo.
2. Crea la selección
Haga clic en "Seleccionar todo". Los elementos similares en un cuadro rojo en la página web se resaltarán en verde, y puede notar que la selección se crea en "Consejos de acción". Octoparse ejecutará repetidamente el raspado hasta que se extraiga el texto de cada elemento de la selección.
3. Extraiga texto
Haga clic en "Extraer texto de los elementos seleccionados" para terminar de crear la selección.
2) Extraer la URL de un enlace o una imagen
Coloquialmente, una URL es un hipervínculo. Con un solo clic en una URL, puede abrir una nueva página web o ir a un nuevo sitio web, al igual que sucede cuando hace clic en el título de un libro en Amazon.
Además de una página web, la URL también le permite acceder al recurso de archivo específico a través de Internet, como una imagen. Si obtiene la URL, puede descargar el archivo o la imagen correspondiente de Internet.
Veamos cómo seleccionar y extraer la URL de un enlace o una imagen con Octoparse.
1. Haga clic en el enlace / imagen que desea
Cuando hace clic en el enlace / imagen que necesita, el área de selección estará en un cuadro verde. Los elementos similares en la página web se resaltarán en un cuadro rojo.
¡Consejos! Cuando selecciona un elemento con URL, la etiqueta seleccionada en la parte inferior de "Consejos de acción" debe ser "A", que significa ancla que generalmente vincula una página a otra. Para crear un patrón correcto para scrape todos los elementos, asegúrese de seleccionar el área correcta. |
2. Crea la selección
Haga clic en "Seleccionar todo". Los elementos similares en un cuadro rojo en la página web se resaltarán en verde, y puede notar que la selección se crea en "Consejos de acción". Octoparse ejecutará repetidamente el raspado hasta que se extraiga el texto de cada elemento de la selección.
3. Extraiga la URL
Haga clic en "Extraer las URL de los elementos seleccionados" / "Extraer URL de imagen en el bucle" para terminar de crear la selección.
¡Consejos!
¿Puedo usar Octoparse para obtener directamente una imagen, no su URL, de la página web? Desafortunadamente, no puede usar Octoparse para extraer la imagen en sí. Si desea extraer imágenes, primero puede scrape las URL de las imágenes con Octoparse y luego descargar las imágenes de forma masiva con una herramienta de "descarga desde URL"
|
3) Extraer HTML interno / externo
A diferencia del texto y la URL, los datos como los iconos no están disponibles para extraerse directamente. Cuando desee extraer contenido visual que no sea de texto, como la clasificación por estrellas, debe extraer el HTML interno / externo de estos contenidos.
Además de los iconos, también puede extraer textos, cuadros y gráficos ocultos de una página web extrayendo primero el HTML de estos elementos.
Para obtener los datos detrás de los iconos, debe aplicar expresiones regulares para limpiar los datos.
Primero veamos cómo seleccionar y extraer HTML interno / externo con Octoparse.
1. Haga clic en los datos de destino que desea
Cuando hace clic en el elemento que necesita, el área de selección estará en un cuadro verde. Elementos similares en la página web se resaltarán en rojo.
2. Extraiga HTML interno / externo
Haga clic en "Extraer HTML interno / externo del seleccionado" en "Consejos de acción" para terminar de crear la selección.

¡Consejos! Octoparse proporciona funciones y herramientas útiles para que pueda aplicar expresiones regulares. Artículos relacionados |
Artículos relacionados:
Extraer varias páginas a través de la paginación
Extraer detrás de un inicio de sesión
Extraer datos a nivel de página
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.