Skip to content

Latest commit

 

History

History
34 lines (26 loc) · 718 Bytes

readme_old.md

File metadata and controls

34 lines (26 loc) · 718 Bytes

前言:目前是想着爬取《战狼2》的影评,就酱

这是什么

一个用php闹着玩爬取的库

用作什么

  1. 爬取一些有意思的东西
  2. 实践面向对象
  3. 实践设计模式
  4. 实践sql链式操作
  5. 实践正则表达式

怎么用

在一个环境中 php curl.php

用什么方式

随便怎么用,你喜欢就好

有什么

由简入深

  1. 搭建一个现代php的环境,composer、namespace、use、autoload等
  2. 简易封装
  3. 豆瓣电影top250爬取
  4. 《战狼2》共20万条影评爬取

TODO

  • 《战狼2》影评
  • 优化爬取时间
  • 分词
  • 拿爬取数据进行sql优化任务
  • 用词云?
  • 暂时还没想到zzz