Back to Question Center
0

Semalt Expert: Python e BeautifulSoup. Rastrexar sitios con facilidade

1 answers:

Cando realice proxectos de análise de datos ou de aprendizaxe automático, pode necesitar raspar sitios web para obter os datos necesarios e completar o teu proxecto. A linguaxe de programación Python ten unha poderosa colección de ferramentas e módulos que poden ser utilizados para este fin. Por exemplo, pode usar o módulo BeautifulSoup para a análise de HTML.

Aquí, imos dar un ollo a BeautifulSoup e descubrir por que agora está sendo tan amplamente utilizado en web scraping .

Características de BeautifulSoup

- Proporciona varios métodos para unha fácil navegación, busca e modificación de árbores de procesamento, así permítelle diseccionar fácilmente un documento e extraer todo o que necesite sen escribir demasiado código.

: converte automaticamente documentos saíntes a UTF-8 e documentos entrantes a Unicode - hublot big bang unico sapphire. Isto significa que non terás que preocuparse polas codificacións sempre que o documento especifique unha codificación ou a sopa fermosa poida detecta-lo automaticamente.

- BeautifulSoup é considerado superior a outros populares Python parsers como html5lib e lxml. Permite probar diferentes estratexias de análise. Unha desvantaxe deste módulo, porén, é que proporciona máis flexibilidade a expensas da velocidade.

Que necesitas para raspar o sitio web con BeautifulSoup?

Para comezar a traballar con BeautifulSoup, ten que ter instalado o seu contorno de programación (local ou baseado no servidor) na súa máquina. Python adoita instalarse previamente en VOS X, pero se usa Windows, terá que descargar e instalar o idioma desde o sitio web oficial.

Debe ter instalado os módulos de BeautifulSoup e Requests.

Por último, ser familiar e cómodo traballar con etiquetas e estruturas HTML é definitivamente útil xa que estará traballando con datos provenientes da web.

As solicitudes de importación e as bibliotecas de BeautifulSoup

Co entorno de programación de Python ben configurado, agora podes crear un novo ficheiro (usando nano, por exemplo) con calquera nome que che guste.

A biblioteca de solicitudes permítelle empregar un formulario HTTP lexible para humanos dentro dos seus programas Python mentres que BeautifulSoup obtén o rascado feito a unha velocidade máis rápida. Podes usar a declaración de importación para obter ambas as bibliotecas.

Como recoller e analizar unha páxina web

Use as solicitudes. get

método para recoller a URL da páxina web desde a que desexa extraer datos. A continuación, crea un obxecto BeautifulSoup ou unha árbore de análise. Este obxecto leva o documento de Requests como argumentos e analiza o documento. Coa páxina recompilada, analizada e configurada como obxecto BeautifulSoup, pode proceder a recompilar os datos que necesita.

Extracción do texto desexado desde a páxina web analizada

Cando desexa recoller datos web, cómpre saber como os datos son descritos polo Modelo de obxectos de documentos (DOM) da páxina web. No seu navegador web, prema co botón dereito (se usa Windows) ou CTRL + prema (se usa macOS) nun dos elementos que forman parte dos datos de interese. Por exemplo, se desexa extraer datos sobre as nacionalidades dos estudantes, faga clic nun dos nomes dun alumno. Aparecerá un menú contextual e dentro del verá un elemento de menú similar ao Inspect Element (para Firefox) ou Inspect (para Chrome). Fai clic no ítem de menú de Inspección correspondente e as ferramentas de desenvolvemento web aparecerán dentro do teu navegador.

BeautifulSoup é unha ferramenta de análise HTML sinxela pero potente que permite unha gran flexibilidade cando rastrexar sitios web . Ao usalo, non esqueza observar as regras xerais de rascado como verificar os termos e condicións do sitio web; revisitando o sitio regularmente e actualizando o seu código segundo os cambios realizados no sitio. Tendo este coñecemento sobre raspar sitios web con Python e BeautifulSoup, agora pode facilmente obter os datos web que precisa para o seu proxecto.

December 22, 2017