Para reunir todos los módulos del tutorial, repasemos un tutorial paso a paso sobre cómo crear una tarea de rastreo desde cero. Lo guiaremos a través de todo el proceso, desde ingresar la URL hasta descargar y extraer datos. Entendamos en profundidad.
Para este ejemplo, extraeremos información y precios de productos de eBay.com.
1. Inicie una nueva tarea
- Abra la aplicación Octoparse e ingrese la URL de destino (https://www.ebay.com/sch/i.html?_from=R40&_trksid=p2380057.m570.l1312.R1.TR11.TRC2.A0.H0.Xwireless.TRS1&_nkw=wireless+earbuds&_sacat=0) into the search bar. Haga clic en "Inicio" para crear una nueva tarea.
2. Deje que Octoparse haga la Detección Automática
Tan pronto como se cargue la página web en el navegador incorporado, Octoparse comenzará a detectar los datos de la página web de inmediato. Puede consultar la barra de progreso y esperar pacientemente a que termine.
3. Obtenga una vista previa de sus datos
Cuando se complete el proceso de detección automática, continúe y verifique sus datos en la sección de vista previa. Puede cambiar el nombre de los campos de datos o eliminar aquellos que no sean necesarios.
4. Guarde la configuración de detección automática
Ahora, vuelva a "Consejos" y compruebe la configuración.
4.1 ¿Desea desplazarse hacia abajo para cargar más datos → "Sí, por qué no?" así que marque la casilla para desplazarse hacia abajo.
4.2. ¿Quieres scrape más páginas? → "Sí", así que marca la casilla de paginación.
4.3. ¿Tiene seleccionado el botón de página siguiente correcto → "Sí", marque y se resaltará.
4.4. ¿Necesita scrape la página de detalles? → "Sí", así que marque la casilla para hacer clic en los enlaces?
4.5. ¿Tiene los enlaces correctos a las páginas de detalles? → "Sí", verifique y los enlaces correctos están resaltados.
Una vez que haya completado todas las opciones de "Tips", haga clic en "Save Setting" para que Octoparse genere automáticamente el flujo de trabajo correspondiente. Es importante asegurarse de que cada uno de los ajustes esté configurado correctamente, ya que estos son los ajustes exactos que utilizará Octoparse para generar la tarea de scraping.
5. Seleccione los datos de la página de detalles
Ahora llegará a la página de detalles. El proceso de detección automática puede comenzar una vez más, pero puede cancelarlo y elegir la selección manual en su lugar. La selección automática funciona mejor cuando tiene una lista de datos para capturar, mientras que la selección manual puede funcionar de manera más eficiente para seleccionar campos de datos individuales.
Haga clic en los datos que desea capturar, luego seleccione "Extraer el texto del elemento seleccionado" en "Tips". Repita los mismos pasos para cada campo de datos.
Verifique la vista previa de datos para los datos extraídos y cambie el nombre de los campos si es necesario.
6. Limpiar los datos extraídos
Al observar los datos extraídos, hay algo que nos gustaría cambiar. Para los datos de comentarios, nos gustaría mantenerlos numéricos para que sea más fácil trabajar con ellos en una hoja de Excel. La idea es reemplazar las palabras "Comentarios positivos" con nada para que podamos mantener el valor porcentual sin tener palabras. Limpiemos los datos.
Haga clic en el icono Mostrar más y seleccione "limpiar datos".
Haga clic en "Agregar paso" y luego en "Reemplazar".
Los datos de vista previa se actualizarán automáticamente para reflejar los datos limpiados.
¡Consejos!
|
7. Ejecute la tarea de prueba
La tarea de scraping ahora está completa. Como se mencionó anteriormente, siempre se recomienda que pruebe el flujo de trabajo paso a paso, asegurándose de que cada paso haga lo que debe hacer, por ejemplo, si hace clic en "Ir a la página web", debería cargar la página web en el navegador incorporado.
Inicie el flujo de trabajo y haga clic en todos los pasos de arriba a abajo y de adentro hacia afuera para los pasos anidados (como la paginación). Observe si la página web responde como se esperaba. Aquí se incluye la metodología de prueba detallada, no dude en consultarla.
Una vez que haya probado todos los pasos, es el momento perfecto para ejecutar la tarea. Haga clic en "Ejecutar" y seleccione "Ejecutar tarea en su dispositivo".
¡Vea cómo se extraen sus datos en vivo!
8. Exporta tus datos
Vaya al Panel de control y busque su tarea, haga clic en abrir el estado de la tarea para ver los datos extraídos. Hacer clic "Exportar datos" en la parte inferior y elija el formato en el que desea descargar los datos.
¡Consejos! Consulte este tutorial paso a paso para saber cómo descargar los datos extraídos. |
¡Felicidades! Ha hecho un buen trabajo al llegar hasta aquí y ha trabajado para convertirse en el próximo experto en web scraping. Esperamos que este no sea el final de su aprendizaje, sino el comienzo de su viaje de web scraping.
Si tiene alguna pregunta, ya sea relacionada con la tarea, relacionada con el web scraping o relacionada con el servicio, permítanos ayudarlo. El equipo de Octoparse se enorgullece de ser parte de su experiencia de web scraping.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.