Code Monkey home page Code Monkey logo

turkish-nlp-suite / beyazperde-movie-reviews Goto Github PK

View Code? Open in Web Editor NEW
5.0 1.0 1.0 10.75 MB

Repo for Turkish movie reviews dataset.

Home Page: https://www.turkish-nlp-suite.com

License: Creative Commons Attribution Share Alike 4.0 International

nlp nlp-datasets sentiment-analysis-dataset turkce-nlp turkce-veriseti turkish-sentiment-analysis turkce-film-elestirileri-veriseti turkish-movie-reviews-dataset turkish-nlp-dataset turkish-sentiment-analysis-dataset

beyazperde-movie-reviews's Introduction

BeyazPerde-Movie-Reviews

Beyazperde Movie Reviews offers Turkish sentiment analysis datasets that is scraped from popular movie reviews website Beyazperde.com. Currently there are 2 datasets, Top 300 Movies Dataset and All Movies Dataset. Both datasets are presented in JSON format, each instance of the dataset is a JSON consisting of

  • movie URL
  • movie name
  • genre info
  • description
  • director info
  • actors
  • creators/producers
  • music creators
  • rating info
  • a list of reviews, each element of the list is a review and a rating value in 0-5 scala.

Here's an example JSON for you:

  {
    "url": "https://www.beyazperde.com/filmler/film-178014",
    "name": "Avatar: Suyun Yolu",
    "genre": [
      "Bilimkurgu",
      "Macera",
      "Fantastik",
      "Aksiyon"
    ],
    "desc": "Avatar serisinin 2009 yılında küresel bir fenomen haline gelen devam halkası; bu defa James Cameron'un yaratmış olduğu öykü evreninin hem kökenlerine iniyor hem de sınırlarını genişletmeyi hedefliyor. Avatar'da yaşanan olaylardan birkaç yıl sonra Jake ve Neytiri Pandora'da kendi ailelerini kurmuştur. Ancak onlar evlerini terk etmek zorunda kalır. Bu yüzden Jake ve Neytiri, suyun yüzeri ve altı dahil olmak üzere Pandora'nın dışındaki yerleri keşfetmeye başlar.",
    "directors": "James Cameron",
    "actors": "Sam Worthington, Zoe Saldana, Sigourney Weaver, Stephen Lang",
    "creators": "James Cameron, Rick Jaffa, Amanda Silver, Amanda Silver, James Cameron, Rick Jaffa, Josh Friedman, Shane Salerno",
    "musicBy": "Simon Franglen, The Weeknd",
    "rating": {
      "totalRating": "4,3",
      "ratingCount": "187",
      "reviewCount": "45",
      "bestRating": "5",
      "worstRating": "0,5"
    },
    "reviews": [
      {
        "rating": "4,0",
        "review": "Filmi bugün Nişanlımla birlikte izleme şansım oldu. Avatarı ilk izlediğimde nedense çokta etkisinde kalmamıştım. bu filme de gittiğimde ilk filmi unutmuştum bile. Avatar 2 yi izleyince Avatar evreni ilgimi çekmeyi başardı. üçüncü filmi beklemiyorum desem yalan olur. Üçüncü Filmde fantastik ögelerden çok bilim kurgu yönünün ağır basması filmi daha anlamlı kılacağını düşünüyorum. Umarım üçüncü filmde yönetmen bu konuya önem verir. Onun dışında Film son zamanlarda izlediğim en naif en ahlaklı yapım diyebilirim. Ailecek gönül rahatlığıyla gidip izleyebilirsiniz. Günümüz yapımları gibi saçma sapan cinsel içerikli konuşmalardan, hareketlerden ibaret değildi. Filmde iki önemli mesaj vardı bunlardan biri aile diğeri küresel iklim değişikliği yani Doğa. Hep doğaya hemde aile yaşantısına karşı çokça mesaj çokça replik barındıran anlamlı bir filmdi. (Aile olmak hem en büyük zaafımız hemde en büyük gücümüz.) Üç saat olmasına rağmen hiçbir sıkılmadım. Aksiyon ve Trajediyi harmanlayıp izleyiciye çok iyi aktarıldığını düşünüyorum. Görsel efekt çekim teknikleri karakterler ve mekanlar harikulade diyebilirim. Tek kusur gördüğüm şey keşke iyi ve kötünün savaşını sadece bir aile sorununa indirgemeyip bu sorunu gezegenin tüm sorunu olarak göstermesi daha ihtişamlı olabilirdi. Sonuçta düşmanlar gezegene sadece Jake için gelmiyordu gezegeni tümüyle işgal edip, sömürmek için geliyordu. Ayrıca çocuk karakterler filmin yarısından sonra biraz fazla filme dahil olmaya başladı, bu bazı seyircileri sıkmış olabilir. Neyse sonuçta James Cameron müthiş bir evren oluşturmuş, izlemeye değer."
      },
      {
      ....
      }
    ]
  }

Top 300 Movies

Top 300 Movies include audience reviews about best 300 movies of all the time. Here's the star rating distribution:

star rating count
0.5 1.657
1.0 535
1.5 273
2.0 608
2.5 2.439
3.0 2.277
3.5 5.550
4.0 13.248
4.5 10.077
5.0 17.351
total 54.015

As one sees, this dataset is highly unbalanced, number of 4 and 5 star ratings are much higher than 0, 1, 2 and 3 star reviews. This dataset offers the challenge of understanding the sentiment in a refined way, dissecting the positive sentiment into "very positive" or "okayish positive".

All Movies Dataset

This dataset contains audience reviews about 4500 popular movies of all times. Here's the star rating distribution for this dataset:

star rating count
0.5 3.635
1.0 2.325
1.5 1.077
2.0 1.902
2.5 4.767
3.0 4.347
3.5 6.495
4.0 9.486
4.5 3.652
5.0 7.594
total 45280

This work is supported by Google Developer Experts Program. Part of Duygu 2022 Fall-Winter collection, "Turkish NLP with Duygu"/ "Duygu'yla Türkçe NLP". All rights reserved. If you'd like to use the models in your own work, please kindly cite the paper A Diverse Set of Freely Available Linguistic Resources for Turkish:

@inproceedings{altinok-2023-diverse,
    title = "A Diverse Set of Freely Available Linguistic Resources for {T}urkish",
    author = "Altinok, Duygu",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
    month = jul,
    year = "2023",
    address = "Toronto, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2023.acl-long.768",
    pages = "13739--13750",
    abstract = "This study presents a diverse set of freely available linguistic resources for Turkish natural language processing, including corpora, pretrained models and education material. Although Turkish is spoken by a sizeable population of over 80 million people, Turkish linguistic resources for natural language processing remain scarce. In this study, we provide corpora to allow practitioners to build their own applications and pretrained models that would assist industry researchers in creating quick prototypes. The provided corpora include named entity recognition datasets of diverse genres, including Wikipedia articles and supplement products customer reviews. In addition, crawling e-commerce and movie reviews websites, we compiled several sentiment analysis datasets of different genres. Our linguistic resources for Turkish also include pretrained spaCy language models. To the best of our knowledge, our models are the first spaCy models trained for the Turkish language. Finally, we provide various types of education material, such as video tutorials and code examples, that can support the interested audience on practicing Turkish NLP. The advantages of our linguistic resources are three-fold: they are freely available, they are first of their kind, and they are easy to use in a broad range of implementations. Along with a thorough description of the resource creation process, we also explain the position of our resources in the Turkish NLP world.",
}

Shield: CC BY-SA 4.0

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

CC BY-SA 4.0

beyazperde-movie-reviews's People

Contributors

duygua avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar

Watchers

 avatar

Forkers

5l1v3r1

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.