Summary: | Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2016-08-08T12:41:40Z
No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
dissertacao-mestrado-jcpf.pdf: 6512881 bytes, checksum: 0e42b481cf73ab357ca212b410fbd5ee (MD5) === Made available in DSpace on 2016-08-08T12:41:40Z (GMT). No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
dissertacao-mestrado-jcpf.pdf: 6512881 bytes, checksum: 0e42b481cf73ab357ca212b410fbd5ee (MD5)
Previous issue date: 2016-02-29 === Prever o sucesso de um filme e, por consequência, seu sucesso nas bilheterias tem uma
grande importância na indústria cinematográfica, desde a fase de pré-produção do filme, quando
os investidores querem saber quais serão os filmes mais promissores, até nas semanas seguintes
ao seu lançamento, quando se deseja prever as bilheterias das semanas restantes de exibição. Por
conta disso, essa área tem sido alvo de muitos estudos que tem usado diferentes abordagens de
predição, seja na seleção das características dos filmes como nas técnicas de aprendizagem, para
atingir uma maior capacidade de prever o sucesso dos filmes. Neste trabalho de mestrado, foi
feita uma investigação sobre o comportamento das principais características dos filmes (gênero,
classificação etária, orçamento de produção, etc), com maior foco nos resultados das bilheterias
e sua relação com as características dos filmes, de forma a obter uma visão mais clara de como
as caracaterísticas dos filmes podem influenciar no seu sucesso, seja ele interpretado como lucro
ou volume de bilheterias. Em seguida, em posse de uma base de filmes extraída do Box-Office
Mojo e do IMDb, foi proposto um novo modelo de predição de box office utilizando os dados
disponíveis dessa base, que é composta de: meta-dados dos filmes, palavras-chaves, e dados
de bilheterias. Algumas dessas características são hibridizadas com o objetivo evidenciar as
combinações de características mais importantes. É aplicado também um processo de seleção de
características para excluir aquelas que não são relevantes ao modelo. O modelo utiliza Random
Forest como máquina de aprendizagem. Os resultados obtidos com a técnica proposta sugerem,
além de uma maior simplificação do modelo em relação a estudos anteriores, que o método
consegue obter taxas de acerto superior 90% quando a classificação é medida com a métrica
1-away (quando a amostra é classificada com até 1 classe de distância), e consegue melhorar
a qualidade da predição em relação a estudos anteriores quando testado com os dados da base
disponível. === Predicting the success of a movie and, consequently, its box office success, has a huge
importance in the motion pictures industry. Its importance comes since from the pre-production
period, when the investors want to know the most promising movies to invest, until the first
few weeks after release, when exhibitors want to predict the box office of the remaining weeks
of exhibition. As result, this area has been subject of many studies which have used different
prediction approaches, in both feature selection and learning methods, to achieve better capacity
to predict movies’ success. In this mastership work, a deep research about the movie’s main
features (genre, MPAA, production budget, etc) has been done, with more focus on the results
of box offices and its relation with the movie’s features in order to get a clearer view of the
organization of information and how variables can influence the success of a film, whether this
success be interpreted as profit or revenue volumes at the box office. Then, in possession of a
movie database extracted from Box-Office Mojo and IMDb, it was proposed a new box office
prediction model based on available data from the database composed of: movie meta-data,
key-words and box office data. Some of these features are hybridized aiming to emphasize the
most important features’ combinations. A features’ selection process is also applied to exclude
irrelevant features. The obtained results with the proposed method suggests, besides a further
simplification of the model compared to previous studies, that the method can get hit rate of more
than 90% when classification is measured with the metric 1-away (when the sample is classified
within 1 class of distance from the right class), and achieve a improvement in the prediction
quality when compared to previous studies using the available database.
|