Python: Web-Scraping para principiantes usando XPATH y BeautifulSoup dos ejemplos

No video

Python: Web-Scraping para principiantes usando XPATH y BeautifulSoup dos ejemplos

Рет қаралды 28,919

Beat Data

Күн бұрын

Пікірлер: 70

@BeatDatafp 3 жыл бұрын

La función para extraer los links en el ejemplo con BeautifulSoup, tiene un error en el video, nunca se referencian los parámetros de la función, eso está corregido en el código del repo de github. Saludos.

@israelantonioviera2505 Жыл бұрын

lo siento amigo pero tu curso no se ve que tecleas en la consola no pude hacer nada

@mabegocon 3 ай бұрын

Muchas gracias por compartir este contenido, lo escribí línea por línea para practicar y entenderlo, hay que seguir practicando porque no parece sencillo de entender el tema de primera mano.

@CaRsT17 3 жыл бұрын

Me agrada mucho encontrar personas como tú que enseñan con paciencia y van al grano, felicidades y espero puedas seguir aportando mas conocimientos a las personas. Gracias.

@BeatDatafp 3 жыл бұрын

Muchas gracias tu comentario, te invito a ver un nuevo video: kzbin.info/www/bejne/pHqyinSgaceGbsk&ab_channel=BeatData

@nicolazprado4337 2 жыл бұрын

Eres lo mejor bro, ningun video me funcionaba hasta que vi el tuyo encima te tomaste la molestia de explicar paso a paso! Te debo mi vida bro, me ayudaste muchísimo. Un abrazo.

@BeatDatafp 2 жыл бұрын

Muchas gracias tu comentario, te invito a suscribirte para que puedas tener más contenido. Saludos

@marthacaballero4613 8 ай бұрын

Muchas gracias, por este video tan completo, Me estoy reencauchando

@BeatDatafp 8 ай бұрын

Excelente, recuerda que tengo más contenido en mi canal, no olvides suscribirte.

@rafaellaureanoduran9824 Жыл бұрын

Muchas gracias por compartir tu conocimiento. Explicas muy bien, lo cual permite que los menos aventajados podamos aprender. Muchas felicidades.

@user-uc4rk4ce8y Жыл бұрын

¡¡Muchas gracias por el vídeo, explicas genial, me está sirviendo muchísimo!!

@BeatDatafp Жыл бұрын

Gracias tu comentario. Te invito a suscribirte para estar al pendiente de más contenido...

@mao_o 2 жыл бұрын

muy buen video y muy claro., Gracias.

@BeatDatafp 2 жыл бұрын

Gracias por comentar

@FranklinArias6 2 жыл бұрын

Excelente explicación, muchas gracias. Es una joya este video. Sigue así.

@BeatDatafp 2 жыл бұрын

Muchas gracias tu comentario. Saludos

@willingtonvelasquez 2 жыл бұрын

Gracias campeón ! tu información me ayudo mucho.

@BeatDatafp Жыл бұрын

Excelente!

@jacksonford9042 2 жыл бұрын

Excelente video, muchas gracias

@alex1garcia1 2 жыл бұрын

Excelente trabajo!! Muchas gracias!!

@BeatDatafp 2 жыл бұрын

Hola Muchas gracias tu comentario. En caso te ayude tengo un curso de power query publicado en udemy en este link: www.udemy.com/course/limpieza-y-modelado-de-datos-con-power-query-excel365/?referralCode=23DA7ED46C89ADAB6C78

@DeepApnea 2 жыл бұрын

Buen video, necesitaba comprender y esta todo claro. Puede hacer un video como hacer request put post delete con headers and payload?. Gracias

@BeatDatafp 2 жыл бұрын

Lo tendré en cuenta. Saludos

@marvinkadiffvargasmachucat2716 2 жыл бұрын

Hola!! Estoy siguiendo tus clases, pero tengo una duda, en la siguiente parte. #cada vez que ejecutas esto la url_inicial se sobreescribe #debes volver a ejecutar el chonk en donde esta la variable url_inicial original para #volver a ejecutar esto, si no solo te tomara la ultima url de la pag 50 links_items=[] i=0 while i

@BeatDatafp 2 жыл бұрын

Hola, gracias tu comentario, si puedes adjuntar el url de la pagina con gusto la reviso y te doy una respuesta. Considera que si es una página estatica o en el DOM se genera una acción al ejecutar javascript esta técnica no te sirve. Deberias obtar por SELENIUM tengo un video en el canal si gustas chekarlo. Saludos

@OperadordeCriptodivisas Жыл бұрын

Hola consulta como se puede hacer para agregar multiples link ejemplo : 2000 sublink ya que solo necesito obtener 2 datos numéricos, pero lamentablemente no puedo extraerlo de la pagina padre, ya que cada sub link tiene la información especifica que necesito y si coloco la padre me va a tirar la información histórica y es demasiada.

@BeatDatafp Жыл бұрын

Hola, gracias tu comentario, tal vez este video te pueda ayudar con tu inquietud. O si en caso tuvieras los links que vas usar en un txt o algo parecido, los puedes igual suministrar en una función para poder extraer lo que requieres. Saludos kzbin.info/www/bejne/bGXdgXWYmJd_irc

@danilocastro8646 7 ай бұрын

Muchas gracias por el video, te comento que me resulto perfecto en paginas como ebay y mercado libre obteniendo todos los precios de la pagina, sin embargo, con despegar me trae solo el primer registro de la pagina (paquetes turístico o viajes) a pesar de que los demás precios tienen la misma etiqueta...alguna idea de por que sucede esto? Saludos y espero alguien me puede ayudar.

@SEBASTIANALEJANDROPRECIADOPERA Жыл бұрын

cuando el estatus me da el numero 404 y no me da el htm completo, que hago??

@rolandohernandez6627 2 жыл бұрын

Y que es mejor hacerlo por xpath o con beautifulsoup?

@yoyo-hs6dj 2 жыл бұрын

hola, llevo poco de video y me esta gustando mucho, y la musica de fondo no altera el video y ayuda a concentrarse la verdad que un 10!, yo he ido aprendiendo un poco de selenium y un poco de todo pero al avanzar me encuentro que las bases no me las he ido encontrando en los videos y me falta entender la sintaxis para poder expandir el codigo y no estancarme, voy por el min 40:15 y lo he puesto en practica el codigo $x("//ul[@class='nav nav-list']/li//ul") pero he quitado el doble // para ver que pasaba poniendo solo $x("//ul[@class='nav nav-list']/li/ul") pero me sigue llevando al mismo sitio, puesto que el primer codigo no pertenece a ul, si no es un

@BeatDatafp 2 жыл бұрын

Hola, gracias tu comentario: es respuesta a tu inquietud sobre el uso del // o solo / en ambos casos te devuelve el resultado ya que el nodo a alcanzar esta en sentido descendente, por la ubicación de la etiqueta a alcanzar y por la formalidad de la expresión se debería usar el // pero funciona en este ejemplo de las dos formas. Hay casos en los que tienes que hacer algo así como union para poder obtener un contenido y en ese caso es obligatorio, por ejemplo '//a | //span' con la barra vertical generas un join de dos expresiones. Saludos

@jorgemarquez1628 2 жыл бұрын

ojala pouedas responder habra fomra despues de terminarlo exportar un svc con la imagen? CSV

@BeatDatafp 2 жыл бұрын

Hola, gracias tu comentario. Considera que un csv es un archivo plano de texto, por lo que si quieres la imagen en un csv, lo que tendrías es el binari de la imagen, es decir que no verias la imagen si no el codigo binario de ese objeto, si es lo que buscas hacer en el video en 1:43:46 explico como obtienes esa respuesta en binario para que la puedas guardar en el csv. Saludos

@jorgemarquez1628 2 жыл бұрын

@@BeatDatafp ufff gracias por responder y compartir el conocimiento! Un abrazo Bro ! Alta duda me sacaste

@jorgevaldez-gf3ph Жыл бұрын

puede hacer un informe detallado en pdf extrayendo personas

@atzin.0603 2 жыл бұрын

Hola. Se puede implementar en una página web? Básicamente lo que quiero es escribir en mi página A un texto y enviarlo con un botón a una Página B y esta página B me devuelve un texto el cual se verá en mi página A

@ljfi3324 2 жыл бұрын

como identificar al elemento cuando esta en una pagina incrustada dentro de la misma

@Timmy_1011 Жыл бұрын

Hola tengo una consulta, para una pagina web en la cual tienes que ingresar tu usuario y password y luego ir y pasar varias secciones de la pagina web luego de eso, extraer lo que quieres. para esto es otro tipo de procedimiento o este formato puede funcionar=?

@nicolasgarciap.3277 2 жыл бұрын

Cordial saludo, gracias por el video. Tengo una inquietud: si quiero raspar una página pero en esa página es un buscador de números el cual tengo en un excel y quiero que los números que tenga en ese Excel me los busque en la página cada uno y me llene ka información que extraiga de la página??

@LdavidMc 10 ай бұрын

no puedo importar ninguna libreria en jupyter☹

@jorgemarquez1628 2 жыл бұрын

deje un comentario de una duda y me lo borraron?

@Camizer 2 жыл бұрын

Cómo hacer para que las páginas no te pongan en black list D:, que problema con eso.

@jhonylv4501 2 жыл бұрын

Gracias por tu video, me sirvió de mucho. Algún método que recomiendes para cuando hay captchas? Saludos y gracias nuevamiente.

@BeatDatafp 2 жыл бұрын

Sí son del tipo darle click, puedes pasarlas usando Selenium, si son las de reconocimiento de imagen, es un poco más complejo ya que deberas usar una libreria de reconocimiento de imagen con pytorch o tensorflow y entrenar con el tipo de imagen que estén usando.

@haticeozdemir51 2 жыл бұрын

Hi. I want to print a text in span with xpath. But it returns empty array. What would be the reason? Can you help me?

@danielgodoy9793 2 жыл бұрын

Maybe you need selenium

@ponchofcultaft2498 2 жыл бұрын

Todo iba muy bien hasta que me salió un error de "SyntaxError: invalid syntax" específicamente con esta linea "print(f'Se esta scrapeando la pag numero {indx}')" no encuentro cual es el problema

@ponchofcultaft2498 2 жыл бұрын

crei que lo arregle cambiándola por esta "print('Se esta scrapeando la pag numero ' + str(len(links_entregar)))" pero solo imprime "Se esta scrapeando la pagina numero 50" 50 veces jaja

@BeatDatafp 2 жыл бұрын

Hola, si aún no lo solucionas, te invito a que revises el codigo en el repositorio, el link esta en la descripción. Saludos

@cristianpereira5011 Жыл бұрын

Hola Crack. Tengo 2 preguntas. 1er. Cual es el ide o pagina que estas corriendo python online? 2da. Como podría hacer Scroll down solo con BeautifulSoup? Gracias desde ya...

@pepeargento6960 Жыл бұрын

anaconda

@j.4284 2 жыл бұрын

Hola gracias por tu video excelente, me gustaría poder contact con usted buscaré la forma de comunicarme ya que me gustaría hacerle un planteamiento. Gracias 👍

@benshi1975 2 жыл бұрын

consulta, yo tengo que scrapear tablas de paginas que se ingresan con usuario y contraseña, cual seria el codigo para entrar? gracias

@electrochums-jimmyquezadac3456 2 жыл бұрын

Yo estoy igual... tengo el nombre de usuario y contraseña del servidor y al ingresar las credenciales por el navegador ingreso al servidor y puedo ver las tablas pero al hacer scraping me envía a la página de inicio de ingresar nombre de usuario y contraseña y eso que se supone que ya entré y no puedo pasar esa página... Ayuda please!!!

@PaoJara02 2 жыл бұрын

También necesito lo mismos

@calceta888 2 жыл бұрын

Hola que tal, se puede hacer web-scrapping a la pagina de servicios online del SRI para extraer las claves de accesos de un contribuyente con esta metodologia??? por mi parte he intentado con la libreria requests pero me devuelve que "La versi�n de su navegador no es soportada en esta p�gina" y la verdad que no se si este intentando acceder a una pagina dificil porque hay que logearse primero con las credenciales del contribuyente y ademas tiene recatcha, no se si este intentando algo imposible por la complejidad de la pagina que ya se trata de un sistema web seguro

@BeatDatafp 2 жыл бұрын

Hola, sí lo puedes hacer, hace un tiempo lo hice para descargar facturas, pero utilice SELENIUM, tengo un video en este canal pero es un ejercicio básico, en todo caso te recomiendo que revises la documentación de SELENIUM y mires los métodos disponibles. Saludos

@calceta888 2 жыл бұрын

@@BeatDatafp ok ya lo checo, aunque con Selenium ya lo hoce y si me resultó, pero quisiera probrar con este metodo, es decir, sin que se abra una instancia de navegador.

@carloscuellar675 3 жыл бұрын

Una pregunta, en la primer pagina books.toscrape.com/index.html muestra que son 1000 results showing 1 to 20 y son 50 paginas por lo tanto debería haber 1000 libros (20x50) pero en el video de acuerdo al código solo te arrojo 517filas, ahí que paso? La pagina entonces tiene 1000 libros como catalogo pero el código solo scrapeo 517 títulos de libros?

@BeatDatafp 3 жыл бұрын

Hola, gracias tu comentario. Efectivamente estás en lo correcto, pero el código con XPATH solo toma la primera pagina de cada categoría, sin iterar en caso existan mas páginas (de esa categoria). Mas adelante usando BeautifulSoup desarrollamos la lógica para ingresar y tomar todas las páginas de resultados ingresando en cada una de ellas, y hacer el código más simple. Espero te sea de utilidad. Saludos.

@carloscuellar675 3 жыл бұрын

@@BeatDatafp si termine de ver el video, es justo lo que ando buscando, quiero sacar el titulo de productos, precio y disponibilidad de una web. Gracias por el video. Ya me suscribí 😎

@BeatDatafp 3 жыл бұрын

@@carloscuellar675 perfecto, espero me ayudes compartiendo. Saludos!!!

@BeatDatafp 3 жыл бұрын

Bro, no sé porque no me muestra tu comentario sobre el error. El error fue que no estaban referenciados los parámetros de la función, es lo que pasa cuando se hace al apuro jejejeej . Ya lo corregí y esta cargado en el repo. Gracias tus observaciones.