- Nessa aula vamos conhecer a biblioteca BeatifulSoup para conseguir extrair informações diretamente de uma página web.
- Para utilizar essa biblioteca pode ser executado o comando a seguir para instalação. pip install beautifulsoup4.
- Pensando nisso, vamos criar o arquivo 7-bsoup.py.
from bs4 import BeautifulSoup
# 1 - Importando arquivo local
with open('pages/home.html', 'r') as file_html:
content = file_html.read()
# print(content)
soup = BeautifulSoup(content, 'lxml')
print(soup.prettify())
# 2 - Recuperando títulos das vagas
vagas = soup.find('h5')
cursos = soup.find_all('h5')
# print(cursos)
for curso in cursos:
print(curso.text)
- Para executar o arquivo, podemos executar o comando python .\7-bsoup.py.
