Todo lo que haces en Octoparse comienza con la creación de una tarea. Una tarea de raspado en Octoparse también se conoce como "un bot" o "un agente". Independientemente de cómo se llame, una tarea es esencialmente un conjunto de instrucciones que debe seguir el programa.
Crear una tarea en Octoparse es sencillo. Primero carga tu página web de destino en Octoparse y haz clic para seleccionar los datos que necesitas buscar. Una vez que hayas terminado de seleccionar los datos que necesitas, se genera automáticamente un flujo de trabajo según cómo hayas interactuado con la página web, por ejemplo, si has hecho clic en un botón determinado, has desplazado sobre el menú de navegación o si has hecho clic para seleccionar cualquier dato en la página.
Octoparse simula las acciones de navegación reales a medida que hace clic, busca, pagina, etc., y finalmente alcanza y extrae los datos de destino, todo ello siguiendo los pasos del flujo de trabajo. Así es como funciona Octoparse para extraer datos de cualquier página web.
Modo Avanzado vs. Plantillas de Tareas
Hay dos formas de crear una tarea de raspado en Octoparse. Puedes crear una tarea en el Modo Avanzado o elegir una Plantilla de Tarea de inmediato.
Modo Avanzado
Con el Modo Avanzado, podrás personalizar tu propia tarea de raspado de la forma que desees, como buscar con palabras clave, iniciar sesión en su cuenta, hacer clic en un menú desplegable y mucho más. En pocas palabras, el Modo Avanzado es todo lo que necesitas para extraer datos de cualquier sitio web.
Plantillas de Tareas
A diferencia del Modo Avanzado, las Plantillas de Tareas proporcionan una gran cantidad de plantillas de raspado preestablecidas para algunos de los sitios web más populares. Estas tareas están predefinidas, por lo que solo necesitarás ingresar algunos parámetros, como el término de búsqueda, la URL de la página de destino, para obtener un conjunto predefinido de datos del sitio web en particular.
¿Listo para tener en tus manos algunos datos? Sigue las lecciones introductorias para obtener una guía paso a paso sobre cómo crear tu primera tarea.
Nota:
- La interfaz de la versión 7 y la versión 8 es diferente, la función de detección automática solo está disponible en la versión 8
- Puedes utilizar la función de detección automática para obtener primero el flujo de trabajo básico y luego modificarlo u optimizarlo para satisfacer tus propias necesidades.
- Por lo general, para extraer datos de un sitio web (o URL de un dominio) se utilizará una tarea/rastreador. Porque una tarea/rastreador solo puede extraer datos de páginas con una estructura de página similar. Pero puedes intentar extraer direcciones de correo electrónico de una lista de sitios web utilizando un rastreador. Aquí tienes un tutorial para tu referencia: ¿Cómo localizar correos electrónicos con Xpath desde un "mailto" enlace en cualquier sitio web ?
Tips para administrar tus tareas
1. Edición de información de tareas
El nombre de la tarea se crea automáticamente a medida que guarda la URL ingresada.
· Para modificar el nombre de la tarea, haz doble clic en el cuadro de texto sobre el panel de flujo de trabajo e ingresa un nuevo nombre.
· O hacer clic en incono para editar el nombre de una tarea guardada
2. Más acciones de gestión de tareas
Aquí hay más acciones de administración de tareas que puedes usar.
Opciones para la gestión de tareas en "Más acciones":
· "Editar" – Editar la tarea (o haz doble clic en el nombre de la tarea en el panel para editar).
· "Suprimir" - Eliminar tarea
· "Renombre" - Cambiar el nombre de la tarea
· "Configuraciones" - Configuraciones básicas (incluido el grupo de tareas y la descripción) y configuración de extracciones
(incluida la división de tareas en la nube y la configuración de carga de imágenes y el bloqueo de anuncios; cambio de agente de usuario del navegador; extracción incremental de la nube)
· "Duplicar" - Replicación de tarea
· "Exportar" - Exportación de tarea
Para administrar tareas por lotes:
- Seleccionar múltiples tareas (también funciona para seleccionar una tarea).
- Seleccionar las opciones disponibles aquí para operar por lotes
- Para deshacer los elementos seleccionados, haz clic en "No seleccionado"
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.