čerstvý crawl a scraping + komplet refaktorizace herectva

DataRozhlas · May 28, 2023 · 4bd1c17 · 4bd1c17
1 parent 5682f8f
commit 4bd1c17
Show file tree

Hide file tree

Showing 40 changed files with 293,475 additions and 235,693 deletions.
diff --git a/001 procrawlování Filmového přehledu.ipynb b/001 procrawlování Filmového přehledu.ipynb
diff --git a/002 stažení Filmového přehledu.ipynb b/002 stažení Filmového přehledu.ipynb
diff --git a/010 scrapování všech person.ipynb b/010 scrapování všech person.ipynb
diff --git a/011 čištění a export všech person.ipynb b/011 čištění a export všech person.ipynb
diff --git a/012 scrapování filmů (a žen).ipynb b/012 scrapování filmů (a žen).ipynb
diff --git a/013 čištění a export filmů.ipynb b/013 čištění a export filmů.ipynb
diff --git a/015 scrapování rolí.ipynb b/015 scrapování rolí.ipynb
diff --git a/015 čistění a export herectva.ipynb b/015 čistění a export herectva.ipynb
diff --git a/016 scrapování herectva.ipynb b/016 scrapování herectva.ipynb
diff --git a/016 čistění a export rolí.ipynb b/016 čistění a export rolí.ipynb
diff --git a/018 scraping použité hudby.ipynb b/018 scraping použité hudby.ipynb
diff --git a/019 scrapování hraje-mluví.ipynb b/019 scrapování hraje-mluví.ipynb
diff --git a/021 scraping písní.ipynb b/021 scraping písní.ipynb
diff --git a/901 celkový přehled.ipynb b/901 celkový přehled.ipynb
diff --git a/902 herectvo aka Nesmrtelná teta.ipynb b/902 herectvo aka Nesmrtelná teta.ipynb
diff --git a/902b písně.ipynb b/902b písně.ipynb
diff --git a/903 tvůrcovstvo aka Král Vávra.ipynb b/903 tvůrcovstvo aka Král Vávra.ipynb
diff --git a/903b kariérní zlomy.ipynb b/903b kariérní zlomy.ipynb
diff --git a/904 demografie a diverzita.ipynb b/904 demografie a diverzita.ipynb
diff --git a/905b lokace.ipynb b/905b lokace.ipynb
diff --git a/README.md b/README.md
@@ -1,28 +1,28 @@
-Scraping a analýza dat o 125 letech českého filmu pro články na serveru iROZHLAS.cz. 
+Datová analýza 125 let českého filmu pro články na serveru iROZHLAS.cz. 
 
-Data pocházejí z [Filmového přehledu](https://filmovyprehled.cz/), autoritativní databáze spravované Národním filmovým archivem. Pro bližší informace o datových položkách viz [vysvětlivky této databáze](https://www.filmovyprehled.cz/cs/clanek/vysvetlivky-a-zkratky):
+Data jsou oscrapovaná z [Filmového přehledu](https://filmovyprehled.cz/), autoritativní databáze spravované Národním filmovým archivem. Pro bližší informace o datových položkách viz [vysvětlivky této databáze](https://www.filmovyprehled.cz/cs/clanek/vysvetlivky-a-zkratky):
 
 > Jako primární zdroj informací při zpracování slouží jednotlivé filmy, pokud jsou dochované a dostupné na filmových kopiích, negativech nebo v digitální podobě ve sbírkách Národního filmového archivu. Čerpáno bylo z úvodních i závěrečných titulků, pokud možno původních, a zhlédnutím celého snímku.  
 Doplnění těchto údajů dále probíhá ze sekundárních zdrojů. Těmi jsou myšleny například distribuční listy, presskity, tiskové zprávy, plakáty, údaje od distributorů a samotných producentů, zákonná nabídková a oznamovací povinnost, cenzurní spisy, ministerské věstníky, internetová média, mapy, databáze, literární a technické scénáře, titulkové, dialogové a honorářové listiny, herecké smlouvy, výrobní listy, filmový a nefilmový soudobý tisk i časopisy, fotografie, reklamní materiály, ročenky, memoárové knihy, rozhovory s tvůrci a pamětníky, filmografické práce, publikace o filmařích a hercích, soupisové a obrazové publikace, literární předlohy, tiskové a novinářské konference a projekce, archivní prameny, zahraniční zdroje, soudobé mapy a řada dalších.
 
-Struktura sešitů:
+## Struktura sešitů
 
-- Od č. 001 do č. 099 stahujeme a čistíme data. Z posloupnosti se vymykají sešity od 090 do 099, které doplňují a kontrolují informace v již oscrapovaných a vyčištěných dataframech a ukládají je pro další kolo čištění. To je však při naklonování repozitáře pro vlastní pokusy jedno, stačí ručně rozbalit ZIPy ve složce `data a začít až notebooky s explorací od čísla 100 výš. Získáte tím přístup k doposud nejčistějším datům. (Oscrapováno na jaře 2023.)
+- Od č. 001 do č. 099 scrapujeme a čistíme data; zásadní jsou při tom notebooky do č. 016. Z posloupnosti se vymykají sešity od 090 do 099, které doplňují a kontrolují informace v již oscrapovaných a vyčištěných dataframech a ukládají je pro další kolo čištění. To je však při naklonování repozitáře pro vlastní pokusy jedno, stačí ručně rozbalit ZIPy ve složce `data` a začít až notebooky s explorací od čísla 100 výš.
 
-- Sešity od č. 100 do ??? zachycují exploraci – je pravděpodobné, že vzhledem k opravám datasetů a refaktorizaci funkcí nebude část z nich fungovat. I kdyby fungovaly, od výsledků jejich výpočtů dávám ruce pryč, protože jsem některé z nich opustil kvůli nalezeným chybám, které jsem se jal opravovat a k notebookům už jsem se pak často vůbec nevrátil. Zveřejňuji pouze pro inspiraci.
+- Sešity od č. 100 až do hypotetického č. 899 zachycují exploraci. Vzhledem k opravám datasetů a refaktorizaci funkcí nebude při opětovném spuštění část z nich fungovat. I kdyby fungovaly, od výsledků jejich výpočtů dávám ruce pryč, protože jsem některé z nich opustil kvůli nalezeným chybám, které jsem se jal opravovat a k notebookům už jsem se pak často vůbec nevrátil. Zveřejňuji pouze pro inspiraci.
 
 - Podstatné jsou sešity od č. 900 výše – obsahují co nejpřesnější možné výpočty, následně použité v článcích na iROZHLAS.cz.
 
-Další praktické informace:
+## Další praktické informace
+
+Data byla naposledy oscrapována 27. 5. 2023.
 
 ***Pozor***: Oscrapované a pročištěné dataframy nejsou ekvivalentní k originální databázi Filmového přehledu, a to z několika důvodů:
 
 - Dataframe `filmy.json` pro jednodnost používá jména lidí tak, jak jsou uvedena na jejich profilu, ne v podobě z titulků či distribučních materiálů.
 
-- Některé informace ve `filmy.json` chybí (výrobní společnosti bez vlastního profilu na stránkách FP), jiné jsou upravené (ve jménech chybí příznak "/ž" a některé akademické tituly).
+- Některé informace ve `filmy.json` chybí (výrobní společnosti bez vlastního profilu na stránkách FP), jiné jsou upravené (ve jménech chybí příznak "/ž/" a některé akademické tituly).
 
 - Je možné, že se některé detaily některých filmů oscrapovaly chybně a ani několik desítek člověkohodin práce s datasetem k odhalení těchto chyb nevedly.
 
-- Dataframe `persony.json` vyzobává jen některá vyznamenání; několik jednotlivých životopisných údajů je v něm doplněno či opraveno z jiných zdrojů. 
-
-Herectvo lze analyzovat dvěma způsoby. Méně preferovaný, zato jednodušší je nahrát dataframe `herectvo.json`, kde jsou však jen herci a herečky s vlastním ID a profilem na Filmovém přehledu. S tímto dataframe dává smysl pracovat tam, kde potřebujeme informace o rolích. Ve většině případů je vhodnější nahrát dataframe `filmy.json` a pracovat se sloupcem `Hrají`, protože v něm jsou i lidé, kteří se nedočkali vlastního profilu v databázi Filmového přehledu. Biografické údaje lze (nejen k herectvu) doplnit z dataframe `persony.json`.
+- Několik jednotlivých životopisných údajů v dataframe `persony.json` je doplněno z jiných zdrojů.