diff --git a/reports/eda-sense8.html b/reports/eda-sense8.html deleted file mode 100644 index 195372a..0000000 --- a/reports/eda-sense8.html +++ /dev/null @@ -1,388 +0,0 @@ - - - - - - - - - - - - - -EDA Sense8 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - -
-
-
-
-
- -
- - - - - - - -

Analisaremos os episódios da falecida série Sense8.

-

Houve duas temporadas: quais foram os melhores episódios? A melhor temporada?

-
episodes = read_csv(here("data/series_from_imdb.csv"), 
-                    progress = FALSE,
-                    col_types = cols(.default = col_double(), 
-                                     series_name = col_character(), 
-                                     episode = col_character(), 
-                                     url = col_character(),
-                                     season = col_character())) %>% 
-    filter(series_name == "Sense8") 
-
-

Quantas avaliações temos por episódio?

-

Cada episódio foi avaliado por um número diferente de usuários do IMDB. Vejamos como é essa distribuição.

-
episodes %>% 
-    ggplot(aes(x = season, y = user_votes)) +
-    geom_violin() + 
-    geom_jitter(width = .07) 
-

-
episodes %>% 
-    ggplot(aes(x = season_ep, y = user_votes))  + 
-    geom_line() + 
-    facet_wrap(~ season)
-

-

A quantidade de avaliações varia bastante. Exceto pelo primeiro episódio, os episódios da segunda temporada tem muito menos avaliações. Talvez porque os dados foram coletados logo depois que a segunda temporada foi lançada.

-
-
-

Qual a distribuição da avaliação dos episódios?

-
episodes %>% 
-    ggplot(aes(x = "Sense8", y = user_rating)) + 
-    geom_jitter(width = .05) +
-    ylim(5, 10) + 
-    labs(x = "Episódios", y = "Avaliação no IMDB")
-

-
episodes %>% 
-    ggplot(aes(x = user_rating)) + 
-    geom_histogram(binwidth = .5, fill = "pink", color = "black") + 
-    geom_rug(alpha = .5, size = 1.2)
-

-
sumarios = episodes %>% 
-    summarise(mediana = median(user_rating), 
-              media = mean(user_rating))
-
-episodes %>% 
-    ggplot(aes(x = user_rating)) + 
-    geom_histogram(binwidth = .5, fill = "white", color = "black") + 
-    geom_vline(xintercept = sumarios$media, color = "darkorange") + 
-    geom_vline(xintercept = sumarios$mediana, color = "brown") 
-

-
-

Qual é esse episódio pior avaliado?

-
episodes %>% 
-    filter(user_rating == min(user_rating))
-
- -
-
-
-
-

Qual a pior/melhor temporada segundo o IMDB?

-
episodes %>% 
-    ggplot(aes(x = season, y = user_rating)) + 
-    geom_boxplot(width = .5, outlier.color = NA) +   
-    geom_jitter(width = .1, size = 2, alpha = .5, color = "red")
-

-
-

Há padrões na avaliação ao longo do tempo?

-
episodes %>% 
-  ggplot(aes(x = season_ep, y = user_rating, color = season)) + 
-  geom_line() + 
-  geom_point() 
-

-

Correlações

-
episodes %>% 
-    group_by(season) %>% 
-    summarise(correlacao_linear = cor(season_ep, user_rating, 
-                                      method = "pearson"), 
-              correlacao_kendall = cor(season_ep, user_rating, 
-                                       method = "kendall"))
-
- -
-
-
-
-

Qual o episódio mais detestado?

-
episodes %>% 
-    ggplot(aes(x = season_ep, y = r1, color = season)) + 
-    geom_line() + 
-    scale_x_continuous(breaks = 1:12)
-

-
-

E amado?

-
episodes %>%
-    ggplot(aes(x = season_ep, y = r10, color = season)) +
-    geom_line() +
-    scale_x_continuous(breaks = 1:12)
-

-
-
-

Amor e ódio andam juntos?

-

Quais são episódios que estão entre os mais amados e mais odiados?

-
episodes =  episodes %>%
-    mutate(
-        rank_odiados = row_number(r1), # maior = mais odiado
-        rank_amados = row_number(r10), # maior = mais amado
-        amado_odiado = rank_amados * rank_odiados) # maior = mais amado E odiado
-    
-episodes %>%
-    ggplot(aes(
-        x = r1,
-        y = r10,
-        color = season,
-        size = amado_odiado,
-        label = season_ep
-    )) +
-    geom_point(alpha = .7) +
-    geom_text(nudge_x = .001, nudge_y = -.01) 
-

-
episodes %>% 
-    arrange(-amado_odiado)
-
- -
-
-
- - - -
-
- -
- - - - - - - -