База (только графики):
- docker pull grih9/myshows_analysis:latest
- docker run -p 5000:5000 grih9/myshows_analysis:latest
Расширенный (включая скрапинг):
- Клонировать репозиторий (достаточно файлов docker-compose и browsers.json)
- docker pull selenoid/vnc_chrome:100.0
- docker-compose up -d
Добавить датасет:
- docker cp dataset.csv container id:/app/datasets/custom
Скопировать датасеты:
- docker cp container id:/app/datasets .
Доступ через браузер - http://127.0.0.1:5000/
Selenoid UI - http://127.0.0.1:8080/
Docker Hub - https://hub.docker.com/repository/docker/grih9/myshows_analysis
Полный доступ:
- Запросить конфигурационный файл для доступа к БД (telegram @grih9, vk @grih9)
- Клонировать репозиторий
- Доступ ко всем скриптам через main.py
- папки
- analyze_dataset - содержит методы для анализа csv файлов с последующей записью в БД (млдуль приема данных)
- API - содержит методы API Flask приложения
- datasets - содержит все датасеты, папка custom для пользовательских датасетов
- driver - chrome driver для локального скрапинга (версия chrome 108)
- filter - модуль фильтрации
- scrapper - содержит методы для скрапинга эпизодов и шоу (модуль извлечения данных)
- static - вспомогательные файлы веб-приложения
- templates - html-страницы веб-приложения
- wrappers - содержит коннектор к базе данных MongoConnector
- app.py - файл работы Flask веб-приложения (модуль визализации данных)
- browsers.json - вспомогательный файл для развертывания контейнеров с браузеров внутри Selenoid
- constants.py - некоторые используемые константы
- docker-compose.yml - файл развертывания docker-compose для Selenoid и веб-приложения
- Dockerfile - фалй контейнеризация веб-приложения
- main.py - файл содержащий вызовы различных модулей (скрипты)
- requirements.txt - необходимые зависимости