本系统用于分析CVPR 2020-2024年的论文数据,包括:
- 论文标题词频统计
- 作者发表数量统计
- 数据可视化
.
├── crawler/ # 爬虫模块
│ └── cvf_crawler.py # CVF网站爬虫
├── flink_analysis/ # Flink分析模块
│ ├── build.gradle # Gradle构建配置
│ └── src/ # 源代码
├── visualization/ # 可视化模块
│ └── visualize_results.py # 可视化脚本
├── requirements.txt # Python依赖
├── run_analysis.sh # 运行脚本
-
确保已安装:
- Python 3.8+
- Java 11+
- Gradle 7.0+
-
运行分析:
chmod +x run_analysis.sh ./run_analysis.sh
-
查看结果:
- word_frequency.png:词频柱状图
- author_frequency.png:作者频率柱状图
- wordcloud.png:词云图
- Python依赖:见requirements.txt
- Java依赖:见flink_analysis/build.gradle
- 首次运行需要安装依赖
- 爬虫运行时间取决于网络状况
- Flink分析需要足够内存