Skip to content

michalkasparek/kiki

Repository files navigation

Kiki

Skript pomáhá odhalovat stylistické nedostatky (českých) textů. Napsal jsem ho, aby mi asistoval při editování zpravodajských a publicistických článků, hodit se ale může i při finišování diplomky nebo románu.

Screenshot Kiki

Co přesně umí:

  • Upozorňuje na klišé. Poradí si i s různými časy a tvary, neunikne mu kostlivec ve skříni ani kostlivci ve skříních. U některých zastaralých, zavádějících nebo nekorektních termínů připojuje vysvětlení a alternativu (globální oteplovánízměna klimatu).
  • Vypisuje slova následující po přímé řeči. Odhaluje tak opakování typu prozradil – neprozradil – prozradil.
  • Hledá zduplikovaná slova (jak řekl řekl).
  • Ukazuje termíny v uvozovkách (uvozovky jsou pro strašpytly).
  • Vypichuje nejdelší větu (obvykle ji jde zkrátit), věty s nejvíce interpunkčními znaménky a nejvíce vztažnými zájmeny.
  • Upozorňuje na (některá) nevhodně použitá interpunkční znaménka.
  • Zobrazuje úseky, ve kterých se objevují slova často používaná v nesprávném významu (díky, Čechy nebo Holandsko).
  • Počítá základní statistiky, jako je rozsah a odhadovaná doba čtení.

Kiki pouze pomáhá, ale needituje. Soubor s textem otevírá jen pro čtení, nic v něm nemění. Neřeší, jestli ve švech praská divadlo, nebo sako. Staví vedle sebe jednoznačně odporné fráze i slova, která jsou ok, pokud se to s nimi nepřehání. Neřeší pravopis a překlepy – od toho tu jsou jiné nástroje.

Použití

Kiki je sice pythonovský skript, k používání ale není nutné znát Python ani umět programovat. Instalace a rozběhnutí však vyžadují základní znalost práce s terminálem/příkazovou řádkou/konzolí. Pokud nemáte ani tu, někoho poproste – je to práce na pár minut.

Ke spuštění skriptu je zapotřebí mít nainstalovaný Python 3, k němu ještě knihovny markdown a tkinter (pip install markdown + pip install tk).

Složku se skriptem a slovníky si stáhněte, kam potřebujete. Nebo naklonujte repozitář:

git clone http://github.com/michalkasparek/kiki

Pro práci v jednoduchém grafickém rozhraní (otestováno na Windows 11, macOS a Xubuntu, čili snad poběží všude) zavolejte skript bez argumentů:

python kiki.py

Výpis lze také zobrazit přímo v terminálu – stačí jako argument zadat cestu k souboru s textem:

python kiki.py (cesta_k_dokumentu\)nazev_dokumentu.txt

Kiki si rozumí s prostým textem (například vykopírovaným z Wordu nebo GDocs) i s markdownem.

Pokud chcete pohlídat frázi, kterou Kiki nezná, přidejte ji na samostatný řádek do nového souboru ptydepe_pridej.txt ve složce slovniky. Podobně lze postupovat, když vám některé hledané fráze nevadí: vytvořte pro ně soubor ptydepe_odeber.txt. Jen pozor: frázi do něj musíte vložit přesně ve tvaru, v jakém se nachází v hlavním slovníku.

Co je nového

  • 0.7: Refaktorizace směrem ke standardní package. pip install -e . umožní běh Kiki např. v Jupyter Notebooks, voláme ji prostřednictvím from kiki import Kiki (kompletní třída pro práci s textem) nebo from kiki import rozsekej_po_vetach (samostatná funkce pro rozdělení textu na věty). Šolichal jsem prakticky se všemi soubory, takže pokud jste Kiki zakutili do vlastních skriptů, budete zřejmě muset upravit cesty. Omlouvám se – a zároveň si do verze 1.0 vyhrazuju právo učit se metodou pokus-omyl. (5. 2. 2023)
  • 0.6: Hledání nejdelší podkapitoly. Rozdělení výpisu na strukturu a sloh. (19. 8. 2022)
  • 0.5: Hledání dublet. Přehlednější výpis ptydepe a boomerštiny. (16. 4. 2022)
  • 0.4: Velká refaktorizace: 1/ Zbavení závislosti na obří knihovně NLTK. 2/ Grafické rozhraní. 3/ Rozbor článku je přepsaný jako třída, takže lze Kiki snadno volat z ostatních skriptů, např. redakčních systémů či builderů. (13. 4. 2022)
  • 0.3: Hledání vět s nejvíce interpunkčními znaménky a nejvíckrát opakujích zájmeno „kter*“. Upozorňování na zastaralé nebo nekorektní fráze s vysvětlením. (25. 3. 2022)
  • 0.2: Seznamy frází už se načítají ze samostatných souborů ve složce slovniky. Tamtéž lze do souborů ptydepe_pridej.txt a ptydepe_odeber.txt vložit vlastní řetězce a regulȧrní výrazy, které má Kiki extra hledat, nebo naopak ignorovat. (22. 2. 2022)

Co je v plánu

  • Další upozornění: opakující se začátky odstavců, chyby v zápisu čísel a v užití pomlček.
  • Podpora YAML záhlaví markdownových souborů.
  • Průběžné rozšiřování seznamů frází.
  • [možná] Podpora formátů OpenDocument a Docx.
  • [možná] Spustitelné soubory pro Windows a macOS.

Zdroje

Seznam nevhodných obratů je posbíraný dílem z osobní praxe, dílem z interních materiálů několika redakcí, mj. MFD, HN a Deníku. Velký dík kolegům a kolegyním za to, že se o ně podělili.

Pomohly mi i diplomové práce Heleny Palátové a Kristýny Fojtů.

Modul Not OK boomer čerpá mimo jiné z manuálu Jak mluvit a psát o lidech s postižením publikovaného kanceláří Veřejného ochránce práv.

Věnování

Kiki jsem pojmenoval po své manželce Kristýně, výjimečně pozorné a pečlivé editorce.

Kontakt

[email protected]

About

pomáhá editovat

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages