GitHub - DataRozhlas/filmovy-prehled: analýza 125 let českého filmu pro články iROZHLAS.cz

Datová analýza 125 let českého filmu pro články na serveru iROZHLAS.cz.

Data jsou oscrapovaná z Filmového přehledu, databáze spravované Národním filmovým archivem. Pro bližší informace o datových položkách viz vysvětlivky této databáze:

Jako primární zdroj informací při zpracování slouží jednotlivé filmy, pokud jsou dochované a dostupné na filmových kopiích, negativech nebo v digitální podobě ve sbírkách Národního filmového archivu. Čerpáno bylo z úvodních i závěrečných titulků, pokud možno původních, a zhlédnutím celého snímku.
Doplnění těchto údajů dále probíhá ze sekundárních zdrojů. Těmi jsou myšleny například distribuční listy, presskity, tiskové zprávy, plakáty, údaje od distributorů a samotných producentů, zákonná nabídková a oznamovací povinnost, cenzurní spisy, ministerské věstníky, internetová média, mapy, databáze, literární a technické scénáře, titulkové, dialogové a honorářové listiny, herecké smlouvy, výrobní listy, filmový a nefilmový soudobý tisk i časopisy, fotografie, reklamní materiály, ročenky, memoárové knihy, rozhovory s tvůrci a pamětníky, filmografické práce, publikace o filmařích a hercích, soupisové a obrazové publikace, literární předlohy, tiskové a novinářské konference a projekce, archivní prameny, zahraniční zdroje, soudobé mapy a řada dalších.

Struktura sešitů

Od č. 001 do č. 099 scrapujeme a čistíme data; zásadní jsou při tom notebooky do č. 016. Z posloupnosti se vymykají sešity od 090 do 099, které doplňují a kontrolují informace v již oscrapovaných a vyčištěných dataframech a ukládají je pro další kolo čištění. To je však při naklonování repozitáře pro vlastní pokusy jedno, stačí ručně rozbalit ZIPy ve složce data a začít až notebooky s explorací od čísla 100 výš.
Sešity od č. 100 až do hypotetického č. 899 zachycují exploraci. Vzhledem k opravám datasetů a refaktorizaci funkcí nebude při opětovném spuštění část z nich fungovat. I kdyby fungovaly, od výsledků jejich výpočtů dávám ruce pryč, protože jsem některé z nich opustil kvůli nalezeným chybám, které jsem se jal opravovat a k notebookům už jsem se pak často vůbec nevrátil. Zveřejňuji pouze pro inspiraci.
Podstatné jsou sešity od č. 900 výše – obsahují co nejpřesnější možné výpočty, následně použité v článcích na iROZHLAS.cz.

Další praktické informace

Data byla naposledy oscrapována na přelomu ledna a února 2024.

Pozor: Oscrapované a pročištěné dataframy nejsou ekvivalentní k originální databázi Filmového přehledu, a to z několika důvodů:

Dataframe filmy.json pro jednodnost používá jména lidí tak, jak jsou uvedena na jejich profilu, ne v podobě z titulků či distribučních materiálů.
Některé informace ve filmy.json chybí (výrobní společnosti bez vlastního profilu na stránkách FP), jiné jsou upravené (ve jménech chybí příznak "/ž/" a některé akademické tituly).
Je možné, že se některé detaily některých filmů oscrapovaly chybně a ani několik desítek člověkohodin práce s datasetem k odhalení těchto chyb nevedly.
Několik jednotlivých životopisných údajů v dataframe persony.json je doplněno z jiných zdrojů.

To-do

Při čištění filmů převádět data premiér na datetime.
Scrapování cen a vyznamenání.

Name		Name	Last commit message	Last commit date
Latest commit History 70 Commits
crawl		crawl
data		data
data_fixes		data_fixes
grafy		grafy
src		src
.gitattributes		.gitattributes
.gitignore		.gitignore
001a procrawlování Filmového přehledu.ipynb		001a procrawlování Filmového přehledu.ipynb
001b aktualizace.ipynb		001b aktualizace.ipynb
002 stažení Filmového přehledu.ipynb		002 stažení Filmového přehledu.ipynb
010 scrapování všech person.ipynb		010 scrapování všech person.ipynb
011 čištění a export všech person.ipynb		011 čištění a export všech person.ipynb
012 scrapování filmů (a žen).ipynb		012 scrapování filmů (a žen).ipynb
013 čištění a export filmů.ipynb		013 čištění a export filmů.ipynb
014 nelidé.ipynb		014 nelidé.ipynb
015 scrapování rolí.ipynb		015 scrapování rolí.ipynb
016 čistění a export rolí.ipynb		016 čistění a export rolí.ipynb
017 scraping národního a zasloužilého umělectva.ipynb		017 scraping národního a zasloužilého umělectva.ipynb
018 scraping použité hudby.ipynb		018 scraping použité hudby.ipynb
019 scrapování hraje-mluví.ipynb		019 scrapování hraje-mluví.ipynb
020 scrapování lvů pro herectvo.ipynb		020 scrapování lvů pro herectvo.ipynb
021 scraping písní.ipynb		021 scraping písní.ipynb
051 české lvy z filmovaakademie.cz.ipynb		051 české lvy z filmovaakademie.cz.ipynb
052 lvi čištění a merge.ipynb		052 lvi čištění a merge.ipynb
053 lvi vs čsfd.ipynb		053 lvi vs čsfd.ipynb
090 highcharts pískoviště.ipynb		090 highcharts pískoviště.ipynb
097 stejní lidé, různá jména.ipynb		097 stejní lidé, různá jména.ipynb
099 doplnění dat z wiki.ipynb		099 doplnění dat z wiki.ipynb
100 explorace filmů.ipynb		100 explorace filmů.ipynb
101 explorace herectva.ipynb		101 explorace herectva.ipynb
102 explorace person.ipynb		102 explorace person.ipynb
103 explorace obsahů a anotací.ipynb		103 explorace obsahů a anotací.ipynb
110 lokace.ipynb		110 lokace.ipynb
112 hudba.ipynb		112 hudba.ipynb
114 produkce.ipynb		114 produkce.ipynb
115 premiéry.ipynb		115 premiéry.ipynb
116 muži x ženy.ipynb		116 muži x ženy.ipynb
117 žánry.ipynb		117 žánry.ipynb
118 časté spoluherectvo.ipynb		118 časté spoluherectvo.ipynb
119 ocenění.ipynb		119 ocenění.ipynb
120 ocenění - nový pokus 02-2024.ipynb		120 ocenění - nový pokus 02-2024.ipynb
121 hlavní x vedlejší role -- hranice.ipynb		121 hlavní x vedlejší role -- hranice.ipynb
123 kdy se objevily profese.ipynb		123 kdy se objevily profese.ipynb
124 stáří.ipynb		124 stáří.ipynb
125 generační obměny.ipynb		125 generační obměny.ipynb
126 hvězdy.ipynb		126 hvězdy.ipynb
127 typologie herectva.ipynb		127 typologie herectva.ipynb
128 použitá hudba.ipynb		128 použitá hudba.ipynb
130 letopočty.ipynb		130 letopočty.ipynb
131 scénáře.ipynb		131 scénáře.ipynb
136 Hrušínští.ipynb		136 Hrušínští.ipynb
137 zpěvactvo.ipynb		137 zpěvactvo.ipynb
138 filmy z budoucnosti.ipynb		138 filmy z budoucnosti.ipynb
139 lvi explorace 2024.ipynb		139 lvi explorace 2024.ipynb
140 lvi x lokace.ipynb		140 lvi x lokace.ipynb
141 nejobsazovanejsi herectvo narozene v 80. letech.ipynb		141 nejobsazovanejsi herectvo narozene v 80. letech.ipynb
901 celkový přehled.ipynb		901 celkový přehled.ipynb
902 herectvo aka Nesmrtelná teta.ipynb		902 herectvo aka Nesmrtelná teta.ipynb
902b písně.ipynb		902b písně.ipynb
902c hlavní x vedlejší role.ipynb		902c hlavní x vedlejší role.ipynb
902d -- tváře vs. hlasy.ipynb		902d -- tváře vs. hlasy.ipynb
902e kdopak to mluví.ipynb		902e kdopak to mluví.ipynb
903 tvůrcovstvo aka Král Vávra.ipynb		903 tvůrcovstvo aka Král Vávra.ipynb
903b pauzy.ipynb		903b pauzy.ipynb
903c graf pauz.ipynb		903c graf pauz.ipynb
904 demografie a diverzita.ipynb		904 demografie a diverzita.ipynb
905 postavy.ipynb		905 postavy.ipynb
905b Ota Hofman revival.ipynb		905b Ota Hofman revival.ipynb
905b lokace.ipynb		905b lokace.ipynb
905c délky výroby.ipynb		905c délky výroby.ipynb
906 lokace pro ČT.ipynb		906 lokace pro ČT.ipynb
907 kvíz pro Vary.ipynb		907 kvíz pro Vary.ipynb
908 třicet let lvů.ipynb		908 třicet let lvů.ipynb
908b lvi x nelvi klíčová slova.ipynb		908b lvi x nelvi klíčová slova.ipynb
909 Uherske Hradiste.ipynb		909 Uherske Hradiste.ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Struktura sešitů

Další praktické informace

To-do

About

Languages

DataRozhlas/filmovy-prehled

Folders and files

Latest commit

History

Repository files navigation

Struktura sešitů

Další praktické informace

To-do

About

Resources

Stars

Watchers

Forks

Languages