Ahora que has descargado Octoparse en tu dispositivo y has aprendido los conceptos básicos, ¡es hora de comenzar tu propio proyecto de raspado web!
La mayoría de los sitios web (directorios, comercio electrónico, sitios inmobiliarios, etc.) comparten diseños similares, por ejemplo. una página que contiene muchos elementos anidados en una lista. Veamos algunos ejemplos.
eBay
Amazon
El nuevo algoritmo de detección automática de Octoparse está especialmente diseñado para raspar páginas de este tipo. Detecta automáticamente los datos de la lista (incluidos los elementos de texto y los enlaces), los botones de "Página siguiente", los botones de "cargar más" y el desplazamiento hacia abajo de una página y luego genera la tarea de raspado automáticamente.
En esta lección, veremos cómo extraer datos de una página web mediante el algoritmo de detección automática.
Tips! Octoparse Hola Mundo proporciona varios sitios de prueba para ayudarte a practicar la extracción de datos de diferentes tipos de páginas web. |
1. Crear una nueva tarea
Ingresa la URL de muestra "http://test-sites.octoparse.com/?product_cat=e-commerce-category-1" en el cuadro de búsqueda en la parte superior de la pantalla de inicio. Haz clic en "Empezar" para crear una nueva tarea con el modo avanzado.
2. Obtener datos mediante la detección-automática
Octoparse cargará la URL de la página web en el navegador integrado e iniciará el proceso de detección automática automáticamente. Espera pacientemente hasta que se complete el proceso y cuando se proporcione más información sobre "Tips".
Tips! Si no se puede acceder a los datos que necesitas al cargar la página, consulta este tutorial sobre cómo puede interactuar con la página web antes de que los datos se detecten automáticamente. |
3. Verificar los datos
Una vez que se complete la detección-automática, sigue las instrucciones proporcionadas en "Tips" y verifica tus datos en la sección de vista previa. Puedes cambiar el nombre de los campos de datos o eliminar aquellos que no sean necesarios. Los datos detectados también se resaltarán en la página web.
4. Confirmar tus opciones
Ahora, ve a "Tips" y verifica tus opciones. Según el tipo de datos detectados, se proporcionan varias opciones entre las que puedes elegir. Para este ejemplo, los datos de la lista se detectan, por lo que lo te proporcionan las opciones para:
- Extraer los datos de la lista - Esta opción está seleccionada de forma predeterminada, ya que Octoparse cree que esto es lo que debe hacer con seguridad.
- Paginar para raspar más páginas - Aparentemente, Octoparse ha detectado un botón "Siguiente" en la página. Marca esta opción si deseas que Octoparse haga clic en el botón "Siguiente" para extraer datos de más páginas.
Tips Para saber si el botón detectado es el correcto, haz clic en "Revisar" y observa cómo se resalta en la página web. Si necesitas volver a seleccionar el botón "Siguiente", haz clic en "Editar" y sigue las instrucciones de "Tips". |
5. Crear Workflow (Flujo de Trabajo)
Después de confirmar la configuración, haz clic en "Crear workflow".
Octoparse generaría un flujo de trabajo automáticamente basado en los datos detectados y la configuración guardada. Puedes optar por ejecutar la tarea ahora o editar el flujo de trabajo manualmente.
Si deseas saber cómo optimizar el flujo de trabajo de la tarea, continúa >> Lección 2: Optimizar tu tarea
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.