Narzędzie do analizy tematycznej stron internetowych z wykorzystaniem modelu embeddingów snowflake-arctic-embed2
i biblioteki Streamlit.
Przed rozpoczęciem pracy upewnij się, że masz zainstalowane następujące elementy:
- Python 3.11: python.org
- Streamlit: streamlit.io
- Ollama: ollama.com (do obsługi embeddingów)
- Model embeddingów:
snowflake-arctic-embed2
- Git git-scm.com
Możesz pobrać kod na dwa sposoby:
# Sklonuj repozytorium
git clone https://github.com/romek-rozen/siteFocusOllama.git
# Przejdź do katalogu projektu
cd siteFocusOllama
- Wejdź na stronę
https://github.com/romek-rozen/siteFocusOllama
- Kliknij zielony przycisk "Code"
- Wybierz "Download ZIP"
- Rozpakuj pobrany plik
Aby zapewnić izolację środowiska, utwórz wirtualne środowisko:
python -m venv myenv
Windows:
myenv\Scripts\activate
Mac/Linux:
source myenv/bin/activate
Zainstaluj wszystkie zależności z pliku requirements.txt:
pip install -r requirements.txt
Pobierz wymagany model embeddingów:
ollama pull snowflake-arctic-embed2
Uruchom serwer Ollama:
ollama serve
- Upewnij się, że serwer Ollama jest uruchomiony:
ollama serve
- Uruchom aplikację Streamlit:
streamlit run app.py
- Otwórz przeglądarkę i przejdź pod wyświetlony adres URL (domyślnie localhost:8501).
- Analiza tematyczna stron internetowych
- Generowanie embeddingów przy użyciu Ollama API
- Wizualizacje 2D i 3D (t-SNE, wykresy sferyczne)
- Analiza spójności tematycznej z metrykami Site Focus Score i Site Radius
Cache embeddingów można wyczyścić w aplikacji za pomocą przycisku "Wyczyść cache embeddingów" w pasku bocznym.
Możesz włączyć tryb debugowania, zaznaczając opcję "Debug Mode" w pasku bocznym aplikacji.