Meu Candidato Scraper

Projeto voltado para raspagem de várias fontes de dados dos candidatos registrados no TSE

Instalação

Faça o checkout do projeto:

$ git clone https://github.com/meucandidato/scraper.git meucandidato-scraper

Crie o ambiente virtual e instale as dependências:

$ cd meucandidato-scraper
$ python3 -m venv .venv

$ source .venv/bin/activate
$ pip install -r requirements.txt

Rode o spider desejado. Nesse exemplo irei buscar notícias do Michel Temer no portal do G1.

$ scrapy crawl g1_news -a keywords="Michel Temer"

Ele irá captura o título da notícia, link para o conteúdo da notícia, entre outros. Segue um exemplo de como é salvo no MongoDB:

{
  "_id": ObjectId("59e7e862d5cb43c2b970eafe"),
  "url": "http://g1.globo.com/globo-news/jornal-globo-news/videos/v/rodrigo-maia-cancela-viagem-para-evitar-novo-atrito-com-michel-temer/6227466/",
  "posted_at": ISODate("2017-10-18T21:20:50.748Z"),
  "title": "Rodrigo Maia cancela viagem para evitar novo atrito com Michel Temer",
  "image": "http://s03.video.glbimg.com/160x100/6227466.jpg",
  "summary": "...Com a proximidade da votação, no plenário da Câmara, da segunda denúncia contra    , o presidente da Ca...",
  "portal_name": "Jornal GloboNews edição das 18h",
  "search_origin": "G1"
}

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
meucandidato		meucandidato
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Meu Candidato Scraper

Instalação

About

Releases

Packages

Languages

meucandidato/scraper

Folders and files

Latest commit

History

Repository files navigation

Meu Candidato Scraper

Instalação

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages