pycrawler_weibo

This library is written for crawling Sina Weibo due to extremely unfriendly Sina API.
At the time, pycrawler_weibo only supports crawling on searching certain keyword.

Prerequisite

[Python 2.7] (https://www.python.org/downloads/)
[Beautifulsoup4] (http://www.crummy.com/software/BeautifulSoup/bs4/)
- pip install beautifulsoup4
[MySQL-python] (http://mysql-python.sourceforge.net/) (option)
- pip install mysql-python

Simple Usage in Terminal

Open test.py and - edit login information and topic/mention - setup MySQL (option)
Go to working directory in terminal
cd ~/...
Run test.py
python test.py

Clases

class WeiboCrawler(isConnectMySQL=True, htmlOutputDir='')
- def search(keyword, pages=range(1, 51))
  - param keyword: (str/list) search keyword
  - param pages: (int/list) pages of search

Name		Name	Last commit message	Last commit date
Latest commit History 47 Commits
.gitignore		.gitignore
README.md		README.md
__init__.py		__init__.py
crawler.py		crawler.py
downloader.py		downloader.py
login.py		login.py
login_encode.py		login_encode.py
main.py		main.py
test.py		test.py
url.py		url.py
url_base62.py		url_base62.py
webparser.py		webparser.py
webparser_general.py		webparser_general.py
webparser_search.py		webparser_search.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

pycrawler_weibo

Prerequisite

Simple Usage in Terminal

Clases

About

Releases

Packages

Languages

PhantomKidding/pycrawler_weibo

Folders and files

Latest commit

History

Repository files navigation

pycrawler_weibo

Prerequisite

Simple Usage in Terminal

Clases

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages