diff --git a/reports/eda-sense8.html b/reports/eda-sense8.html deleted file mode 100644 index 195372a..0000000 --- a/reports/eda-sense8.html +++ /dev/null @@ -1,388 +0,0 @@ - - - - -
- - - - - - - - -Analisaremos os episódios da falecida série Sense8.
-Houve duas temporadas: quais foram os melhores episódios? A melhor temporada?
-episodes = read_csv(here("data/series_from_imdb.csv"),
- progress = FALSE,
- col_types = cols(.default = col_double(),
- series_name = col_character(),
- episode = col_character(),
- url = col_character(),
- season = col_character())) %>%
- filter(series_name == "Sense8")
-Cada episódio foi avaliado por um número diferente de usuários do IMDB. Vejamos como é essa distribuição.
-episodes %>%
- ggplot(aes(x = season, y = user_votes)) +
- geom_violin() +
- geom_jitter(width = .07)
-episodes %>%
- ggplot(aes(x = season_ep, y = user_votes)) +
- geom_line() +
- facet_wrap(~ season)
-A quantidade de avaliações varia bastante. Exceto pelo primeiro episódio, os episódios da segunda temporada tem muito menos avaliações. Talvez porque os dados foram coletados logo depois que a segunda temporada foi lançada.
-episodes %>%
- ggplot(aes(x = "Sense8", y = user_rating)) +
- geom_jitter(width = .05) +
- ylim(5, 10) +
- labs(x = "Episódios", y = "Avaliação no IMDB")
-episodes %>%
- ggplot(aes(x = user_rating)) +
- geom_histogram(binwidth = .5, fill = "pink", color = "black") +
- geom_rug(alpha = .5, size = 1.2)
-sumarios = episodes %>%
- summarise(mediana = median(user_rating),
- media = mean(user_rating))
-
-episodes %>%
- ggplot(aes(x = user_rating)) +
- geom_histogram(binwidth = .5, fill = "white", color = "black") +
- geom_vline(xintercept = sumarios$media, color = "darkorange") +
- geom_vline(xintercept = sumarios$mediana, color = "brown")
-episodes %>%
- filter(user_rating == min(user_rating))
-episodes %>%
- ggplot(aes(x = season, y = user_rating)) +
- geom_boxplot(width = .5, outlier.color = NA) +
- geom_jitter(width = .1, size = 2, alpha = .5, color = "red")
-episodes %>%
- ggplot(aes(x = season_ep, y = user_rating, color = season)) +
- geom_line() +
- geom_point()
-Correlações
-episodes %>%
- group_by(season) %>%
- summarise(correlacao_linear = cor(season_ep, user_rating,
- method = "pearson"),
- correlacao_kendall = cor(season_ep, user_rating,
- method = "kendall"))
-episodes %>%
- ggplot(aes(x = season_ep, y = r1, color = season)) +
- geom_line() +
- scale_x_continuous(breaks = 1:12)
-episodes %>%
- ggplot(aes(x = season_ep, y = r10, color = season)) +
- geom_line() +
- scale_x_continuous(breaks = 1:12)
-Quais são episódios que estão entre os mais amados e mais odiados?
-episodes = episodes %>%
- mutate(
- rank_odiados = row_number(r1), # maior = mais odiado
- rank_amados = row_number(r10), # maior = mais amado
- amado_odiado = rank_amados * rank_odiados) # maior = mais amado E odiado
-
-episodes %>%
- ggplot(aes(
- x = r1,
- y = r10,
- color = season,
- size = amado_odiado,
- label = season_ep
- )) +
- geom_point(alpha = .7) +
- geom_text(nudge_x = .001, nudge_y = -.01)
-episodes %>%
- arrange(-amado_odiado)
-