En este tutorial, le mostraremos cómo extraer información de Craigslist.
Para continuar, es posible que desee utilizar la URL en este tutorial:
https://newyork.craigslist.org/d/accounting-finance/search/acc
Scrape datos, como el título, el tiempo, la compensación y employment_type de la página de detalles del trabajo con Octoparse.
Estos son los pasos principales de este tutorial:
- "Ir a la página web" - abra la página web de destino
- Cree un ciclo de paginación - Scrape todos los resultados de varias páginas
- Cree un "Elemento de bucle" - haga clic en cada elemento de cada lista
- Extraer datos - selecciona los datos que necesita raspar
- Ejecutar extracción - ejecute su tarea y obtenga datos
1) "Ir a la página web" - abra la página web de destino
- Cree la tarea con "Modo avanzado"
- Pegue la URL en el cuadro "Sitio web"
- Haga clic en "Guardar URL" para continuar
2) Cree un ciclo de paginación - Scrape todos los resultados de varias páginas
- Desplácese hasta la parte inferior de la página
- Haga clic en el botón de la página siguiente "Siguiente >"
- Haga clic en "Retry when the page remains unchanged"
- Desmarca la casilla "Reintentar cuando la página no se modifica"
- Marque la casilla "Cargar la página con AJAX" y establezca AJAX Timeout como 5s
- Haga clic en "Guardar" para continuar
¡Consejos! El tiempo de espera de AJAX a menudo se puede usar como un tiempo de espera de página web para Acción de clic. Por ejemplo, cuando tiene una página que tarda una eternidad en finalizar la carga, mucho después de que se carguen los datos que necesita, puede usar convenientemente el tiempo de espera de AJAX para indicarle a Octoparse que pase a la siguiente acción cuando se alcance el tiempo establecido. Si desea obtener más información sobre AJAX, aquí hay algunos enlaces relacionados: |
3) Cree un "Elemento de bucle" - haga clic en cada elemento de cada lista
- Haga clic en el título de la primera lista de la página actual.
- Haga clic en "Seleccionar todo" en el panel "Consejos de acción"
- Seleccione "Loop haga clic en cada URL"
- Haga clic en "Guardar" para continuar
4) Extraer datos - selecciona los datos que necesita raspar
- Haga clic en los datos que necesita en la página.
- Seleccione "Extraer texto del elemento seleccionado" de los "Consejos de acción" Haga clic en "Guardar" para continuar
- Cambie el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta
5) Ejecutar extracción - ejecute su tarea y obtenga datos
- Clic en Guardar"
- Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Extracción en la nube" para ejecutar la tarea en la nube (solo para usuarios premium)
Aquí está la salida de muestra:
Related articles:
¿Te resultó útil este artículo ¡ Contáctenos en cualquier momento si necesita nuestra ayuda!
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.