#chrome scrab in
Explore tagged Tumblr posts
valentinayue-blog · 4 years ago
Text
Simple Scraping con Google Sheets (2020 actualizado)
Este herramienta de web scraping puede automatizar el proceso de copia y pegado repetitivos. En realidad, las hojas de Google pueden considerarse un web scraping básico. Puede usar una fórmula especial para extraer datos de una página web, importar los datos directamente a las hojas de Google y compartirlos con sus amigos.
En este artículo, primero le mostraré cómo construir un web scraping simple con Hojas de cálculo de Google. Luego lo compararé con Octoparse web scraping automático. Después de leerlo, tendrá una idea clara sobre qué método funcionaría mejor para sus necesidades específicas de web scraping.
Opción#1: Cree un web scraping sencillo con ImportXML en Google Spreadsheets
Paso 1: Abre una nueva hoja de Google.
Paso 2: Abra un sitio web de destino con Chrome. En este caso, elegimos ’Games sales’. Haga clic derecho en la página web y aparecerá un menú desplegable. Luego seleccione "inspeccionar". Presione una combinación de tres teclas: "Ctrl” + "Shift" + "C" para activar "Selector". Esto permitiría al panel de inspección obtener la información del elemento seleccionado dentro de la página web.
Paso 3: Copie y pegue la URL del sitio web en la hoja.
Opción#2: Intentemos obtener datos de precios con una fórmula simple: ImportXML
Paso 1: Copie el Xpath del elemento. Seleccione el elemento de precio y haga clic con el botón derecho para que aparezca el menú desplegable. Luego seleccione "Copiar", elija "Copiar XPath".
Paso 2: Escriba la fórmula en la hoja de cálculo.
=IMPORTXML(“URL”, “XPATH expression”)
Tenga en cuenta que la "expresión Xpath" es la que acabamos de copiar de Chrome. Reemplace la comilla doble "" dentro de la expresión Xpath con una comilla simple ''.
Opción#3: Hay otra fórmula que podemos usar:
=IMPORTHTML(“URL”, “QUERY”, Index)
Con esta fórmula, extraes toda la tabla.
Ahora, veamos cómo se puede lograr la misma tarea de raspado con un rastreador web, Octoparse.
Paso 1: Abra Octoparse, cree una nueva tarea seleccionando "+ Tarea" en el "Modo avanzado"
Paso 2: Elija su grupo de tareas preferido. Luego ingrese la URL del sitio web de destino y haga clic en "Guardar URL". En este caso: sitio web de Game Sale http://steamspy.com/
Paso 3: Aviso El sitio web de Game Sale se muestra en la sección de vista interactiva de Octoparse. Necesitamos crear una lista de bucles para que Octoparse revise los listados.
1. Haga clic en una fila de la tabla (podría ser cualquier archivo dentro de la tabla). Octoparse detectará elementos similares y los resaltará en rojo.
2. Necesitamos extraer por filas, así que elija "TR" (Fila de Tabla) desde el panel de control.
3. Después de seleccionar una fila, elija el comando "Seleccionar todos los subelementos" en el panel Consejos de acción. Elija el comando "Seleccionar todo" para seleccionar todas las filas de la tabla.
Paso 4: Elija "Extraer datos en el bucle" para extraer los datos.
Puede exportar los datos a Excel, CSV, TXT u otros formatos deseados. Las hojas de cálculo requieren que se copie y pegue, pero Octoparse automatiza el proceso. Además, Octoparse tiene más control sobre sitios web dinámicos con AJAX o reCaptcha.
Más recursos:
Create your first scraper with Octoparse [Video]
Los 20 mejores programas gratuitos de web scraping
Comparacion de las 5 mejores herramientas de web scraping
0 notes
valentinayue-blog · 4 years ago
Link
¿Cómo puede descargar imágenes de enlaces de forma gratuita en lote?
Para descargar la imagen del enlace, es posible que desee buscar en "Descargadores de imágenes a granel". Inspirado por las consultas recibidas, decidí hacer una lista de "los 5 mejores descargadores de imágenes masivas" para usted. Asegúrese de consultar este artículo Si desea descargar imágenes del enlace sin costo. (Si no está seguro de cómo extraer las URL de las imágenes, consulte esto: Cómo construir un rastreador de imágenes sin codificación)
0 notes