En la lección anterior, aprendemos cómo capturar texto simple(ea cómo capturar texto de una página en la lección 3 ). Ahora estudiamos una técnica de web scraping más avanzada: capturar una lista de elementos.

Dado que la lista es tan común, Octoparse hace la extracción de la lista sea rápida y fácil, ya que detecta automáticamente todos los elementos posibles de la lista. Ahora veamos cómo se hace con un ejemplo.
Utilizaremos la URL: https://www.ebay.com/sch/Vehicle-Electronics-GPS-/3270/i.html como ejemplo.[Descargue el archivo de tareas en esta lección ]
1. Construya la lista definiendo un patrón
Seleccionando 2 elementos de la lista, dígale a Octoparse qué elementos incluir en la lista
· Haga clic en las 2 secciones de productos consecutivamente. Observe que las otras secciones del producto en la página se seleccionan automáticamente y se resaltan en verde con todos los subelementos resaltados en rojo.
· Haga clic en "Extraer texto de los elementos seleccionados". Se generará automáticamente un"Elemento de bucle" y se agregará al flujo de trabajo. Generalmente, Octoparse extrae automáticamente del elemento, si esto no es exactamente lo que está buscando, puede eliminar agregar los campos de datos que necesita en el siguiente paso.
¡Consejos!
1. Para construir adecuadamente una lista de elementos requeridos, es fundamental que las dos opciones tengan la misma estructura, es decir, el contenido resaltado debe tener la misma "apariencia". Siempre puede expandir el área de selección haciendo clic en las etiquetas (por ejemplo, DIV, A, LI, etc.) en la parte inferior de "Consejos de acción".
|
2. Capture subelementos dentro del elemento seleccionado
2.1 Desde el elemento resaltado en verde (generalmente el primero en la lista), haga clic para capturar los subelementos deseados. Esto es para establecer una plantilla de extracción para los otros elementos en la lista. Configure el paso de extracción para el primer elemento, luego Octoparse aplicará la plantilla a los elementos restantes en la lista.
· Haga clic para capturar cualquier subelemento dentro de la sección resaltada
· Cuando termine de seleccionar, haga clic en "Extraer texto de los elementos seleccionados"
2.2. Capture todos los subelementos automáticamente
Además de los pasos en 2.1, hay una forma alternativa de capturar subelementos en Octopares 7x. En el momento en que agrega elementos a la lista, Octoparse detecta automáticamente todos los subelementos dentro de las secciones seleccionadas y los resalta en rojo. Ahora, puede hacer clic en "Seleccionar todos los subelementos" en "Consejos de acción" para seleccionar todos los subelementos detectados a la vez.
Ahora, todos los subelementos están seleccionados y se muestran en el panel "Consejos de acción"
· Haga clic en la "X" junto a los campos de datos para eliminar las columnas innecesarias.
· Una vez hecho, seleccione "Extraer datos".
Observe que los campos de datos extraídos se agregan al panel "Campo de datos" al lado del diseñador de flujo de trabajo para una mayor personalización si es necesario.
Lección 5: Haga clic en una lista y raspar datos de cada página de elementos
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.