Sosyal Medya Verileri ile Gelecek Tahmini*

Özet

Son yıllarda, sosyal medya, sosyal ağ ve içerik paylaşımı için her yerde ve önemli hale gelmiştir.  Ve bu sosyal ağlar tarafından üretilen içerik hala tam olarak kullanılabilmiş değil, atıl durumda. Bu çalışmada sosyal medya içeriğini kullanarak gerçek hayatla ilgili nasıl öngörülerde bulunulacağını ispat etmeye çalışacağız. Özellikle, Twitter.com’u kullanarak filmlerin gişe hâsılatlarını bulmaya çalışacağız. Belirli bir konuda atılan tweetler ile yapılacak basit bir formül ile edilen bir oran ile pazar odaklı tahminlerden daha isabetli tahminler yapılacağını göstereceğiz.

Ayrıca Twitter’dan çıkan duyguların sosyal medyanın tahmin gücünü artırmada daha nasıl kullanılabileceğini de göstermeye çalışacağız.

1.Giriş

Sosyal medya insanların içerik oluşturduğu, paylaştığı, yerini belli ettiği, etiketlediği, inanılmaz bir hızla büyüyen iletişim mecrası olarak ortaya çıktı.

Facebook, Twitter, My Space, Digg, akademik tarafta JISC listservs gibi örnekler verilebilir. Kullanım kolaylığı, hızı,  geniş erişim imkânı sayesinde toplulukların oluşması, trendlerin oluşması, çevreden ekonomiye, politikadan teknolojiye birçok alanda eğilimlerin oluşmasını sağlamaya başladı.

Sosyal medyanın bir ortak aklı temsil ettiğini düşündüğümüz için, gerçek dünya ile ilgili öngörüler oluşturulması için kullanılmasını araştırmak istedik.

Bazı konularda sürekli ve anlık olarak fikirlerini paylaşan bir toplumun görüşlerinden gerçekten, ölçülebilir, rasyonel öngörüler, tahminler çıkarmanın mümkün olduğunu gördük. Bu tarz bilgiler genellikle bütün olarak dizayn edilmiş, anket, görüş alma, gözlemleme taktikleri ile elde edilebiliyor.

Bir topluluğun bir konu hakkında yaptıkları bir sürü konuşmadan oluşan verilerin bu konu hakkında gelecek öngörüleri yapmakta kullanılabileceğini hayretle gördük. Bu bilgi piyasası genellikle yeterince kapsamlı ve düzgün tasarlanmış ise anket ve görüş havuzu oluşturularak devlet garantisi altında yapılır.

Özellikle, bu piyasalarda gözlenen girdi ile fiyatlar arasında güçlü bir kolerasyon vardır, bu da bu göstergelerin geleceğin tahmini için iyi birer gösterge olduklarını ortaya koyuyor.

Tam da bu noktada sosyal medya, büyük varyansı ile geniş bir kullanıcının görüşlerine yer verdiği için pazar araştırmalarına gerek kalmadan bazı spesifik konulardaki öngörüler oluşturmak konusunda büyük fırsatlar sunuyor.

Gelecekteki eğilimleri tahmin ederken toplumun genel fikirlerinden ve davranışlarından, yararlı açılımlar elde etmek için bir model oluşturulabilir. Ayrıca, insanların bir ürün hakkında nasıl konuştukları hakkında bilgi toplayabilir, bu bilgileri de pazarlama iletişimde ve ürün geliştirme aşamalarında bilgi olarak kullanabilirsiniz.

Bu yazı da böyle bir çalışmanın üzerine yazılmış bir rapordur. En hızlı büyüyen sosyal ağlardan biri olan Twitter’dan elde edilen veriler üzerinden, en çok konuşulan bazı vizyon filmlerinin gişe gelirlerini tahmin etmeye çalıştık. Twitter son zamanlarlarda inanılmaz bir hızla büyüyen, yüz milyonlarca insanın belirli konular hakkında görüşlerini yazdıkları, içerik oluşturdukları bir micro blog.

İki ana sebeple bu çalışmada filmleri konu aldık.

  •          Film, sosyal medya kullanıcılarının ilgisini çeken, önemli ve üzerinde durdukları bir konu, filmler hakkında yazanların sayısı çok fazla olduğu gibi, filmleri tartışanlar arasında birçok farklı görüş olabiliyor.
  •          Gişe gelirlerinin gerçek dünyada ölçümünün çok kolay olması ve sonuçlarının hızlı bir şekilde açıklanması.

Bu çalışmadaki hedeflerimiz şunlardır. İlk olarak, farklı filmler için konuşma ve dikkatlerin nasıl oluştuğunu ve zamanla nasıl değiştiğini değerlendirmek. Film yapımcıları filmlerini tanıtmak için çok fazla para ve emek harcıyorlar ve son zamanlarda Twitter mecrasını da bu amaçları için kullanmaya başladılar. Daha sonra Twitter’da viral pazarlama mekanizmasının nasıl çalıştığına ve yayın öncesi yapılan tanıtımların gerçek gişe gelirlerini nasıl etkilediği konusuna odaklandık. Hipotezimiz; Twitter’da hakkında olumlu konuşulan filmlerin, çok izleneceğidir.

İkinci olarak filmler hakkında duyguların,  olumlu, olumsuz düşüncelerin nasıl oluştuğunu ve nasıl yayıldığını ve insanları nasıl etkilediğini açıklamaya çalıştık. Kötü bir film için ilk izlenim başkalarının filmi izlemekten vazgeçmeleri için yeterli olabilirken diğer yandan zamanla üretilen olumlu fikirlerin yayılmasıyla film hakkındaki genel izlenim olumlu yönde değişebilir. Bu amaçla, duygu analizi yapmak için metin sınıflandırıcıları kullanarak, olumsuzdan olumluya doğru tweetleri sınıflandırdık.

Başlıca sonuçlarımız aşağıdaki gibidir;

  •          Sosyal medya verileri gerçek dünya çıktıları hakkında öngörüde bulunabilmek için önemli bir gösterge olabilir.
  •          Twitter görüşlerinden oluşturulacak bir oran ile gişe gelirlerini tahmin etmeye yarayacak bir öngörü modeli oluşturulabileceğini fark ettik. Dahası bizim oluşturduğumuz öngörü modelinin, Hollywood borsasının pazar endeksli tahminlerinde daha iyi sonuçlar verdiğini görüyoruz.
  •          Bizim Twitter’da oluşan genel hissiyatın ve duyguların analizine dayalı gişe geliri öngörü modelimiz, sadece filmler yayına girdikten sonra atılan tweetlerin oranlarına göre tespit edilebilmektedir.

Bu yazı şu şekilde düzenlenmiştir. Yapılan çalışmayla ilgili anket yaptık. Twitter hakkında kısa bir tanıtım yazmak için bilgi toplandı. 5. Bölümde ilginin ve popülerliğin nasıl geliştiğini yayıldığının üzerinde çalıştık. Sonra Twitter da tweetleri kullanarak film performanslarının tahmini ile ilgili çalışmamızı tartıştık. 6. bölümde duygular ve onların etkileriyle ilgili analizimizi sunuyoruz. 7. bölümde öngörü modelimizi genel hatlarıyla tarif ederek, ekleriyle birilikte konuyu toparlamış ve bitirmiş oluyoruz.

 2.İLGİLİ ÇALIŞMALAR

Twitter çok popüler bir internet servisi olmasına rağmen,  henüz üzerinde yayınlanmış önemli bir çalışma yok.  Huberman ve diğerleri birçok ağ arasında anlamsız ilişkiler olduğu halde Twitter üzerinde kullanıcıların arkadaşları ve takipçileri arasında gizli bir ağın olduğunu ortaya koymaya çalıştılar. Twitter’daki bağımız gruplar ve kullanıcı amaçları Java ve arkadaşları tarafından araştırıldı. Jansen ve diğerleri Twitter’ı bir “word of mouth” reklamcılık aracı olarak incelediler, özellikle bazı marka veya ürünlerin postlarını incelerken genel duyguyu nasıl değiştirdiklerini tespit ettiler. Ancak bu yazarların Twitter’ın öngörüler için nasıl kullanılacağına dair henüz bir yazıları bulunmamaktadır.

Bloglar, yapılan atıflar ve performans arasındaki kolerasyonun analizine yönelik bazı ön çalışmalar yapılmıştır. Gruhl ve diğerleri kitap satışlarını tahmin etmek için bloglara yönelik veri madenciliği için bazı otomatik sorgular oluşturdular. Film satışları üzerine tahmin çalışmaları olmasına rağmen, hemen hemen tüm çalışmalarda film türü, aktörler, çalışma süresi, filmin çıkış tarihi, gösterileceği salon sayısı gibi meta verilerini kullanılmıştır. Joshi ve diğerleri filmlerin gişe gelirlerini tahmin etmek için tüm meta verileri ile doğrusal regresyonları kullanmışlarıdır. Sharda ve Delen öngörülerdeki sınıflandırma sorununu ele alarak filmleri en kötüsünden en mükemmeline kadar ( gişe geliri olarak )sinirsel kategorilere ayırmıştır. Ellerindeki rakamlara göre tahmin aralıklarını belirledikleri için gerçeğe yakın tahmin yapmak yüzdesi oldukça düşüktür. Zhang ve Skiena Imdb verileri ile gişe gelirlerini tahmin etmeye çalışan bir model kullanmışlardır. Bu çalışmada bizim modelin bu modellerle karşılaştırıldığında daha iyi sonuçlar verdiğini gördük.

3.TWITTER

13 Temmuz 2006 da yayına başlayan Twitter en popüler micro blog servisi.  3 ocak 2009 tarihi itibariye tekil 23 milyon kullanıcısı olan, çok büyük bir tabanı var. Her kullanıcının takipçi olarak bilinen abonelerinin olduğu, doğrudan bir sosyal ağdır. Her kullanıcı tweet olarak bilinen durum güncellemelerini maksimum boyutu 140 karakter olan kısa mesajlar şeklinde yapar. Bu güncelleştirmeler kullanıcının kişisel bilgilerini içerebileceği gibi, haber, resim video gibi bağlantılar da olabilir. Kullanıcı tarafından gönderilen mesaj, kişinin takipçileri tarafından görülebilen, izlenebilen profil sayfası üzerinde gösterilir. Ayrıca bir başka kullanıcıya başka kimsenin göremeyeceği, yine maksimum 140 karakterden oluşan direkt mesajlar da gönderilebilir. Mesajları göndermek için kişisel user id ler kullanılır. Retweet mesajın aslen başkasına ait olduğunu göstererek, bir başka kullanıcının kendi profil sayfası üzerinden takipçileri ile paylaşmasıdır. Twitter da ilgi çekici konuların, haberlerin, içeriklerin, fotoğrafların popülerleşmesi ve hızlı bir şekilde yayılması için retweet’in çok önemli bir yeri vardır.

Viral pazarlama için muazzam bir potansiyel sunan Twitter şirketlerin hemen ilgisini çekti.  Son derece büyük erişim imkanı sayesinde, giderek artan bir şekilde haber ve içerik oluşturan firmalar tarafından toplumun genelinden gelecek haberleri, içerikleri filtre ettikleri bir mecra haline geldi. Birçok iş kolu ve şirket ürünlerinin tanıtımını yapmak ve iş ortaklarını bilgilendirmek amacıyla Twitter veya benzer bir micro blog servisini kullanmaya başladı.

4. VERİ KÜMESİNİN ÖZELLİKLERİ

Kullanılan veri kümesi saatlik olarak Twitter.com sitesinden elde edilmiştir.Bir filmden bahseden tüm tweetleri tespit etmek için anahtar kelimeler tespit edildi. Bir Twitter arama aracı kullanarak, yazar, zaman, metin temalı aramalar gerçekleştirildi. Bu yöntemle 3 ay içinde 24 farklı film hakkında 2.89 milyon tweet ayıklandı. Filmler çarşamba gösterime giren serbest filmler hariç genelde cuma akşamları gösterime başlarlar. Veri topladığımız 3 aylık süre içinde her hafta ortalama 2 film gösterime başladı, böylece kabul edilebilir öngörülerde bulunmak için yeterli bir veri sağlanmış oldu. Tutarlılığı sağlamak için sadece cuma akşamları gösterime giren ve geniş bir gösterimi olan filmleri araştırma kapsamına aldık. Başlangıçta sınırlı gösterimi olan fakat daha sonra geniş bir gösterime ulaşan filmlerle ilgili veriyi de çalışmaya dâhil ettik. Her film için kritik zaman dilimleri tespit ettik, buna göre ilk gösterimden bir hafta önce, tanıtım kampanyasının en yoğun olduğu dönemde, ilk gösterimden 2 hafta sonraya kadar geçen süre içinde filmin popülerliği artıyor, konuşulmaya devam ediliyor.

Tablo1. Analiz edilen filmlerin isimleri ve gösterime giriş tarihleri

Filmlerle ilgili bazı bilgiler ve filmlerin gösterime giriş tarihleri tablo 1 de gösterilmiştir. Bu dönemde gösterime giren bazı filmler bu tabloda yer almamıştır, çünkü bu filmlerle ilgili atılan tweet olup olmadığı tespit edilememiştir. Örneğin 2012 filmi, bu film için atılan tweetleri ayıklamak çok zor çünkü 2012 yılı ile ilgili atılan tweetlerde çok fazla vardı, bunları ayıklamak sorun olacağı için çalışmanın kapsamına alınmadı. Uygun kelimeleri seçerek, taramaya alınan verilerin sağlıklı olması için gerekli kontroller yapıldı.

Şekil 1. Farklı filmler için kritik dönemde atılan tweetlerin zaman serileri

 Kritik dönemde filmlerle ilgili 1,2 milyon kullanıcı tarafından toplam 2,89 milyon tweet atıldı. Şekil 1 de kritik dönem içinde atılan tweetlerin zaman serisi eğilimini görebilirsiniz. Bu şekilde film hakkında en çok gösterime girdiği haftada konuşulduğu anlaşılıyor, daha sonra konuşmalar giderek azalmaya başlıyor. Gişe geliri için de benzer bir durum söz konusu, gişe gelirleri de gösterime girdiği ilk hafta sonu ve devam eden hafta sonu en yüksek gelirin elde edildiği zamanlardır.

Şekil 2. Farklı filmler için farklı yazarların attıkları tweet sayısı

Şekil 2 de her bir yazarın attığı tweetlerin sayısının zaman içinde nasıl değiştiğini gösteriyor. Kritik dönemde bu oranın oldukça tutarlı bir şekilde 1 ile 1,5 arasında kaldığını görüyoruz.

Şekil 3 Yazar ve tweetlerin log dağılımı

Şekil 3 de kritik dönem boyunca farklı yazarlar tarafından atılan tweetlerin dağılımını görebiliyoruz. X ekseninde atılan tweetlerin log sayı, Y ekseninde ise yazarların yazma sıklıkları gösteriliyor. Çok sayıda tweet atan az sayıda kullanıcı ile birlikte, dağılımın Zipifian dağılımına yakın olduğunu gözlemleyebiliriz. Bu diğer ağlarda da görülen tutarlı bir dağılımdır. Sonra farklı filmler için farklı yazarların yazdıkları tweetlerin dağılımını inceledik.

Şekil 4. Filmler hakkında yorum yapan kullanıcılar ve onların filmler üzerinde dağılımı

Şekil 4 te yazarların dağılımı ve bunların kaç film hakkında yorum yaptığını görüyoruz. Yazarların birçoğunun sadece birkaç film hakkında konuştuklarını ve bu anamda çok güçlü bir eğilim olduğunu görebilirsiniz.

5.DİKKAT VE POPÜLERLİK

Çalışmada Twitter’da dikkat ve popülerliğin nasıl oluştuğunu ve bu oluşan dikkat ve popülerliğin gerçek dünya da gişe geliri performanslarını nasıl etkilediğini de inceledik.

 A.      Gösterime girmeden önce oluşan dikkat

 Bir film gösterime girmeden önce yapım şirketleri filmi tanıtmak için film için tanıtım videosu, fragman, haber, blog yazıları,  fotoğraf gibi içerikler üretiyorlar. Film gösterime girmeden önce atılan tweetlerin öncelikle film hakkında tanıtıcı ve ağızdan ağza pazarlama oluşturacak şekilde olmasını bekliyoruz. Twitter da bu karakterize edilebilir, kullanıcılar haber, tanıtım videosu, blog yazısı gibi url’leri ve başkaları tarafından oluşturulmuş url’leri kendi takipçilerini retweet yolu ile de paylaşabilirler. Filmlerin gösterime girdiği zamanda bu iki form da Twitter üzerinde film hakkında bir gündem oluşturmak ve film hakkındaki bilgilerin paylaşılması için son derece önemli.

Şekil 5. Farklı filmler için tweetlerin url yüzdeleri

Öncelikle, tweetlerin hangi filmler hakkında yazılıklarının dağılımını inceleyeceğiz, ardından bu kolerasyonun gerçek performansla arasındaki kolerasyonu inceleyeceğiz.

Tablo 2. Kritik hafta için url ve retweet yüzdeleri

Tablo 2 de filmler için kritik zaman dilimi boyunca paylaşılan Url’lerin ve retweet lerin yüzdesi gösterilmektedir. Film gösterime girmeden önce atılan tweetlerin, film gösterime girdikten sonra atılan tweetlere göre daha fazla oranda url içerdiğini gözlüyoruz. Bu da bizim beklentilerimizle tutarlıdır. Retweet durumunun ise 3 hafta boyunca benzer bir seyirde olduğunu görüyoruz. Retweet lerin filmler üzerinde yapılan yorumlarda önemli bir azınlık olduğunu görüyoruz. Bunun bir nedeni eğer propaganda yapmak istemiyorlarsa, insanların filmi kendi beklentileri ve yorumları ile birlikte paylaşmak istemeleri fikri olabilir.

Twitter da daha fazla url li tanıtım yapılan filmlerin gişe gelirlerinde daha fazla başarılı olup olmadıklarını göstermek istiyoruz. Filmlerin gişe gelir performansları ile url li tweet ve Retweet ler arasında tablo 3 de gösterildiği gibi orta dereceli olumlu bir kolerasyon tespit edildi.

Tablo3.. Film gösterime girmeden önce atılan url li tweet ve retweetlerin gişe gelirleri ile arasındaki kolerasyon ve r oranı.

Bununla birlikte tespit edilen r2 değerleri, filmlerin göreceli başarılarını öngörmek için yeteri kadar yüksek değildir. Tanıtıcı girişimlerin filmlerin gişe gelirlerini oldukça etkilediğini düşündüğümüz için bu sonuçlar bizim için çok büyük sürpriz oldu, böyle olmasını beklemiyorduk.

B.      İlk hafta gişe gelirlerinin tahmini

Sosyal medyanın gerçek dünya sonuçlarını öngörebilme gücünü araştırdık. Amacımız Twitter’dan elde edilecek verilerin doğru analiz edebilirse, gerçek dünyadaki iş sonuçlarının tahmin etmede kullanılabileceğini göstermek. Çözmek istediğimiz sorunu şöyle izah edebiliriz.

Film gösterime girmeden önce filmle ilgili atılan tweetlerden, hafta sonu gösterime giren filmlerin gişe hâsılatlarını doğru bir şekilde öngörebilir miyiz?

Tweetleri niceliksel bir veri olarak kullanabilmek için, saat başına belirli bir filmden bahseden tweetlerden elde edilen tweet oranı tespit edildi.

 Tweet − rate(mov) =  Tweets (Mov)/ Time (in hours)

İlk analizimiz ortalama tweet oranı ile, seçilen 24 filmin gişe gelirleri arasında 0,90 kolerasyon katsayısı ile çok güçlü bir kolerasyon olduğunu gösterdi. Bu oran, iki değişken arasında çok güçlü bir doğrusal ilişki olduğunu göstermektedir.  Buna göre, filmler vizyona girmeden önce araştırma kapsamındaki 24 film için atılan tweetlerden en küçük kareler kullanılarak doğrusal bir regresyon modeli oluşturduk. Çok güçlü bir prediktif ilişki gösteren 0,80 ile 3,65e-09  ***, R2 değeri elde edilmiştir, buradaki ***0,001’in önemini gösterir. Bu performans tek bir değişken ( ortalama tweet  hızı ) kullanılarak elde edilmiştir. Öngörülerimizi değerlendirmek için, Box Office Mojo nun gerçek gişe gelirleri bilgilerinden faydalandık.

4 Aralık’ta gösterime giren Transylmania filmi, araştırma kapsamındaki 24 film arasında açıkça en düşük tweet oranına sahip filmdi. Filmin gösterime girmesinden önceki hafta boyunca, filmle ilgili saatte ortalama 2,75 tweet atıldı. Twitter’da bu kadar az ilgi görmesi, orada dikkat çekememesi gibi, 1000’den fazla salonda gösterime girdiği halde, ilk hafta için $263,941 gişe geliri elde ederek en az gelir elde etme rekorunu kırdı ve iki hafta içinde de gösterimden kaldırıldı. Diğer yandan, Twilight: New Moon ve Avatar filmleri ilk hafta sonunda sırasıyla 142 Milyon ve 77 Milyon $ gişe geliri yaparak büyük bir patlama yaşadılar. Aynı filmler hakkında gösterim öncesi hafta boyunca saatte ortalama 1365,8 ve 1212,8 tweet atılmıştı. Bu da bir kez daha bir konunun sosyal medyada dikkate alınarak gündeme gelmesinin önemini göstermektedir.

Sonra filmin gösterime girmesinden önceki hafta boyunca atılan tweetlerin oranının zaman serisi değerlerinin doğrusal bir regresyonu yapıldı. Çalışmada her bir gün için belirlenen tweet oranlarına karşılık gelen 7 farklı değişken kullanıldı. Kullandığımız ek değişken, filmlerin yayınlandığı salon sayısı oldu. Regresyon deneylerin sonuçları Tablo 4’te gösterilmiştir.

Tablo4. İlk hafta sonu için gişe gelirlerinin tahmininde kullanılan farklı R2 değerlerinin katsayısı

Bu çalışmada gişe gelirlerini tahmin etmek için yalnızca gösterime girmeden önce atılan tweetlerle ilgili veri kullanılıyor, bunu unutmamak gerekir.

HSX ile karşılaştırılması

Bizim tweet tabanlı model ile Hollywood borsa endeksini karşılaştırdık. Öncelikle Hollywood borsası gibi yapay online borsaların öngörüde bulunmak için ne kadar başarılı olduğu gösterilmiştir. Bu borsada gözlenen beliren fiyatlarla gerçek sonuçlar frekansları ile arasında çok güçlü kolerasyon vardır. Araştırmaya alınan filmler için Hollywood’un Menkul Kıymetler Borsası (http://www.hsx.com ) da gerçek sonuçları tahmin edebilecek bir pazar var. Böylece, bizim tweet oranı ile tahmin etme yöntemi ile Hollywood menkul kıymetler borsasının tahmin gücü arasında bir regresyon ve altın oranı belirleyebiliriz. Tablo 4. deki sonuçlardan sosyal medya verilerinin filmlerin gişe sonuçlarını tahmin etmek için bizim regresyon modelinin daha doğru sonuçlar vereceğini görebiliriz. Ayrıca tweet oranı zaman serilerini kullanarak yaptığımız tahminlerin Hsx tabanlı modele göre daha başarılı olduğunu görüyoruz.

Tweet oranı ve HSK tahmin yöntemi kullanılarak yapılan gişe gelirlerini tahminlerini şekil 6. da görebilirsiniz.

Şekil6 Tweet oranı ve HSK tahmin yöntemi kullanılarak yapılan gişe gelirlerini tahminleri

Haberlertabanlı tahminilekarşılaştırılması

Daha önceleri Zhang ve arkadaşları film gişe gelirleri tahmininde haber tabanlı tahmin modelini geliştirmişlerdi. Söz konusu çalışmada en iyi performans yöntemi IMDB ve haberleri kullanılarak elde edilen kombine bir modeldir. Bu kombine model için elde edilen R2 modeli 0,788 ile bizim tahmin modelimizden çok daha düşüktür. Bizim veriler için AMAPE (Adjusted Mean Absolute Percentage/Relative Error)( Yüzde Mutlak / Bağıl hata ortalama arındırılmış )ölçü hesaplanmakta. Karşılaştırmalı değerleri Tablo 5’te gösterilmektedir.

Tablo 5 AMAPE ile daha önceki iş ile puan değeri karşılaştırması

Bizim değerlerin daha önceki işlerden elde edilen tahminlerden çok daha fazla iyi olduğunu bu tablodan görebilirsiniz. Şunu da belirtmekte fayda var, daha önceki analizleri yapan bilim adamları çok daha eski verileri de analizlerinde kullanabiliyorlardı, fakat biz ise sadece belirtilen dönemlerde üretilen verileri kullanabildik.

C.      HSX fiyatlarının tahmini

 Sosyal medya verilerinin gişe gelirlerini öngörebileceğini gördükten sonra, ayrıca HSX hisselerinin de değerlerini tahmin etmeye çalıştık. İlk haftanın sonunda, filmin gişe gelirlerindeki duruma göre, filmin hisse senetleri de ona göre değişiyor. Filmin performansı iyi değilse, hisse değeri aşağıya doğru gider veya tam tersi. Belirlediğimiz filmin HSX borsasındaki hisse değerini öngörebildiğimizi görebilmek için filmin yayına girdiği haftanın sonunda bir test yaptık. Her film için ayrı ayrı geçmiş dönem HSX fiyatlarını da tweet oranları gibi kullandık. Cevap değişkeni hisse senedinin fiyatı düzeltilmiş oldu. Yine daha önce olduğu gibi filmin gösterime girdiği salon sayılarını da kullandık. Tablo 6 da özetlendiği gibi tweet oranları, HSX tarihsel verilerine göre gerçek verileri tahmin etmede çok daha başarılı olmuştur. Bu da yine sosyal medyanın konuşulma ve gösterge gücünü göstermektedir.

Tablo 6. İlk haftanın sonunda HSX verilerinin tahminleri

D.      Belirli bir hafta sonu için tüm filmler için gelir tahmini

 Şimdiye kadarki analizlerde hep, filmin gösterime girdiği ilk haftanın sonuna kadar geçen zamandaki gişe gelirleri öngörülmeye çalışıldı. Regresyon modelinin başarısı göz önüne alınarak artık, belirli bir hafta sonu için tüm filmler için gişe gelirleri öngörülmeye çalışıldı. The Hollywood Stock Exchange de filmlerin delisti 4  hafta sonra açıklanıyor, bu da filmlerin analizi için 4 haftalık bir zaman serisinin uygun olduğu anlamına geliyor. Twitter mecrasında da kullanıcılar gösterime giren filmi bir süre daha konuşmaya, tartışmaya devam ediyorlar. Bundan dolayı hafta sonuna kadar geçen 7 gün boyunca atılan tweetlerin tweet oranlarını kullanıyoruz. Tablo 7. Ocak ayının 3 hafta sonunu ve şubat ayındaki durumu gösteriyor.

Tablo7. Farklı hafta sonları için tweet oranı ile tahmin sonuçları

Bu deney için alına filmler arasında 2 aydır yayında olan filmler de vardı. Zaman serilerinden ayrı olarak, iki klasik değişken daha kullandık,  filmlerin gösterildiği salon sayısı ve filmlerin yayında kaldığı zaman. Regresyon modelini değerlendirmek için belirlenmiş katsayısını (adjusted R2) kullandık. Tablo 7.de de görüleceği gibi, tweet oranı yöntemi bu alanda da 0,90’nın üzerindeki R2 ile çok iyi bir öngörücü olmuştur. Bu sonuçlarda sosyal medya verilerinden faydalanarak gelecek hakkında çok yüksek doğruluk oranında tahminler yapılacağını göstermiştir. Sadece atılan tweetleri temel alarak oluşturulan bu modelin, karmaşık para piyasası verilerinden elde edilen modele göre daha yüksek öngörü başarısı göstermesi sosyal medyanın bu alandaki gücünü göstermektedir.

6. DUYGU ANALİZİ ( Sentiment Analysis )

Bu aşamada gelecekteki sonuçları öngörmede duyguların önemini araştırmak istiyoruz. Filmlere gösterilen dikkatin, filmlerin hafta sonu gişe gelirlerini tahmin etmedeki önemini beraber gördük. Dolayısıyla duyguların da tahminler için önemli olabileceğini düşünüyoruz. Duygu analizi dil bilim ve mekanik öğrenme problemlerinde daha önce çok çalışılmış bir konu. Bu anlamda verilen bir metni pozitif, negatif veya nötr olarak etiketlemek en genel sorundur. Burada açık kaynak uçlu doğal dil işleme kütüphanesine sahip, Lİng Pipe dilsel analiz paketini kullanarak bir duygusal analiz sınıflandırıcı inşa edildi. Eğitim etkinlikleri tarafından bir dil modeli olarak kabul edilen DynamicLMClassifier kullandık. Çalışma her bir kategori için kategori dağıtım ve çok değişkenli dinamik bir dil modeli tahmincisi kullanılarak yapıldı. Çalışmada kullanılacak, etiketli ve eğilimleri tespit edecek kelimeler Amozan teknikte çalışan Türk işçiler tarafından tespit edildi. Amazon Turk’te çalışanların iyi birer manuel etiketleme uzmanı olduklarını gördük. Büyük bir rastgale örneklem içinden seçilen tweetlerin her birini 3 farklı kişiye etiketletmek için binlerce kişi çalıştı. Sadece oy birliği ile etiketlenen tweetler kullanıldı. Örneklem başlangıçta aşağıdaki işlemlerden geçirildi.

  •          Dur sözcükleri eleminasyonu
  •          Ünlem ve soru işaretleri almış cümleler hariç tüm işaretlerin eleminasyonu
  •          Url ve user id lerin eleminasyonu
  •          Mov kısaltması ile filmin değiştirilmesi

N gram modeli kullanarak sınıflandırma yapmak için ön işlemden geçmiş örnekler kullanıldı.

Deneylerde n olarak 8 seçildi. Pozitif, negatif ve nötr olmak üzere çalışmalarda 3lü bir sınıflandırma yapıldı. Çapraz doğrulama testinde %98 oranında doğruluk elde ettik. Daha sonra filmlerin gösterime girdikten sonra başlayan kritik dönem boyunca tüm filmler hakkında atılan tweetlerin duygu analizi bu sisteme göre yapıldı.

A.      Öznellik

Bizim beklentimiz film yayınlandıktan sonra duyguların önemi, yayınlanmadan önceki duruma göre daha önemli olduğu yönünde. Filmler yayına girmeden önce atılan tweetlerin daha güçlü olumlu veya olumsuzluklar içereceğini düşünüyoruz bu nedenle film gösterime girdikten sonra atılan tweetlerin dağıtılması gerektiğini düşünüyoruz. Pozitif duyguların film gösterime girdikten sonra seyreden veya seyreden bir arkadaşından etkilenen kişilerden geldiğini kabul edebiliriz. Öznelliği yakalamak için aşağıdaki gibi bir önlem alınmıştır.

Subjectivity= Positive and Negative Tweets / Neutral Tweets

Tüm filmler için öznellik değerleri hesaplandığı zaman bizim hipotezin doğru olduğu ortaya çıktı. Film gösterime girdikten sonraki hafta atılan tweetler film gösterime girmeden önceki hafta atılan tweetlere göre daha yoğun bir şekilde duygular barındırmaktadır. Şekil 7 de üç hafta boyunca filmler hakkında atılan tweetlerin öznellik oranlarını gösteriyor. Filmlerin çoğu için gösterime girmesinden sonra atılan tweetlerde öznellik oranının arttığını gözlemleyebiliyoruz.

Şekil 7 Film öznellik değerleri

 B.      Kutupluluk

Bir film için duyguları ölçmek için negatif tweet, pozitif tweet oranını ölçmek gerekir.

Hakkında olumlu tweet sayısı fazla olan filmlerin daha başarılı olmaları muhtemeldir.

PN Ratio = Tweets With Positive Sentiment / Tweets With Negative Sentiment

 Şekil 8 filmler için kritik dönemde polarite değerlerini göstermektedir.

Şekil 8 Film polarity değerleri

Hemen hemen tüm filmler için pozitif duyguların negatif duygulara göre daha fazla olduğunu görürsünüz.  The Blind Side filminin yayınlanmasından sonra olumlu duygular için muazzam bir artış olmuştu. (5,02 – 9,65 ) . Bu film gişe gelirleri açısından ilk hafta sonunda normal bir gişe gelirini yakalamışken ( 34 M ), olumlu duygulu tweetlerle birlikte ikinci hafta gişe gelirleri sıçramıştır ( 40,1M)

The New Moon filminde ise tam tersi bir etki söz konusu olmuştu. Bu film de The Bilind Side filmi ile aynı hafta yayına girdi, aynı hafta sonu iyi bir gişe geliri elde etmişti ( 142 M),olumlu tweet oranı rakamı ikinci hafta 6,29 dan 5,0 düşünce gişe gelirleri de büyük bir düşüşle 42 M geriledi. Gelirlerin tahmininde kullanılan polarite verilerine bakılırsa, gelir tahmininde kullanılan bazı duygularında incelenmesi gerekiyor. Bu durumda, ikinci hafta sonunda öznelliğin artmasıyla gelirlerinde artacağını düşündük. Tweet oranına ilave olarak PN ratioyu kullanarak, daha öncede olduğu gibi gelir tahmininde doğrusal bir regresyon kullandık. Yapılan regresyon deneylerinin sonuçlarını Tablo 8 de görebilirsiniz.

Tablo 8. İkinci hafta sonu gişe gelirleri brüt tahmini

Tweet oranları kadar olmasa da tweet duygularının da gelirleri önemli derecede etkilediğini görebiliyoruz. Tweet oranı ilk haftanın sonunda olduğu kadar ikinci haftanın sonunda da gelir tahmini konusunda aynı güce sahip. Ortalama tweet hızı ve tweet oranı zaman serileri ile tahmin yapıldığında çıkan 0,92’nin üzerinde duygu analizi verileri de eklenince tahmin gücü 0,94 e yükseldi. Tablo 9 da ortalama tweet oranı ve duygu analizini ekleyince elde edilen regresyon p değerlerini gösteriyor.

Tablo 9 Ortalama tweet oranı ve politesi kullanılarak elde edilen regresyon ( pn ratio ) Önem seviyesi (*: 0.05, **: 0.01, ***: 0.001) olarak ayrıca gösterilmiştir

Her iki durumda da katsayıların son derece önemli olduğunu görebilirsiniz.

7. SONUÇ

Bu yazıda sosyal medyadan elde edilen verilerle gerçek hayatla ilgili sonuçların nasıl tahmin edilebileceğini gösterdik. Özellikle en popüler sosyal medya sitelerinden biri olan Twitter üzerinden, üç milyondan fazla tweet üzerinden, filmler gösterime girmeden gişe gelirlerinin tahmininde doğrusal bir regresyon modeli üzerinde çalışıldı. Daha sonra bu sonuçların Hollywood Stok Exchange borsasının tahminlerini bile geride bıraktığını gösterdik, bununla birilikte gelecekte gösterime girecek bir film ile ilgili Twitter da oluşan dikkatin de gişe gelirlerini tahmin etmede kullanılabileceğini gösterdik. Ayrıca, film yayınlandıktan sonra Twitter da oluşan duyguların analizi ile gişe gelirlerinin tahmin edilebileceğini de gösterdik.

Bu çalışmada metrikler kullanılarak gişe gelirlerinin tahminine odaklanıldığı halde, gelecekte benzer metrikler oluşturularak, ürünlerin oluşturulması, trendlerin belirlenmesi, seçim sonuçlarının tahmini gibi çok daha geniş bir yelpazede kullanılabilir.

Daha derin bir düzeyde düşünüldüğünde, bu çalışma sosyal medyanın nasıl ortak aklı temsil ettiğini gösterdi, doğru kullanıldığında gelecekteki sonuçları gösterme de nasıl güçlü bir yol olduğunu gösterdi.

 8. EK SOSYAL MEDYA İÇİN GENEL TAHMİN MODELİ

Bu çalışmada filmlerin gelir tahminlerini de odaklandık, fakat aynı yöntemle tüketicilerin ilgi duydukları başka ürünler içinde yapılabilir. Aşağıdaki gibi, sosyal medya verilerini kullanarak bir ürünün gelir tahmini için bir model oluşturduk.

Zaman içinde ürünle ilgili yorumları, blog yazıları gibi verileri toplamaya başlıyoruz. Sosyal medyada ürünle ilgili yapılan konuşmaların hızını efektif bir şekilde ölçmek için zamanlamaya dikkat edilmesi gerekir. Veriler daha sonra en küçük kareler kullanılarak doğrusal bir regresyon modelinde kullanılabilmektedir. Modelin parametreleri şunları içerir.

A: Dikkatleri üzerinde çekme oranı

P: Duygu ve yorumların polaritesi ( kutupluluğu )

D: Dağılım Parametresi

Y’yi tahmin edilecek gelir ve hata olarak ifade edelim. Bu durumda doğrusal regresyon modeli aşağıdaki gibi ifade edilebilir.

doğrusal regresyon modeli
doğrusal regresyon modeli

Burada β değerleri regresyon katsayılarına karşılık gelir.

Dikkat parametresi sosyal medya da konu üzerinde buzz etkisinin oluşmasını sağlar. Biz bu makalede tweet oranının film hakkında nasıl dikkat oluşturduğunu gösterdik. Yapılan deneylerde bu katsayının en önemli olduğu bulunmuştur. Polarite parametresi sosyal medyada yaygın olan düşünce ve kanaatlerle ilgilidir. Bunun film yayına girdikten sonra daha da önem kazandığını ve tahminlerin doğruluğunu etkilediğini gördük. Film hakkında yapılan çalışmada dağılım parametresi filmlerin kaç salonda gösterime girdiğini gösterir. Diğer ürünlerle ilgili yapılacak çalışmada, ürünlerin pazarda bulundukları nokta sayısı bunu gösterebilir.

 9. TEŞEKKÜR

 Bu çalışma Grant # 0937060 CIFellows Projesi  olarak bilgisayar araştırma derneği çatısı altında, Ulusal Bilim Vakfı tarafından desteklenerek yapılmıştır.

 *Bernardo A. Huberman ve Sitaram Asur tarafından HP Social Computing Lab/ California ‘da yapılan çalışmaların neticesinde 29 Mart 2010 yılında yayınlanan makalenin Haydar Durusoy tarafından yapılmış özgün bir çevirisidir. Ülkemizde bu alanda yapılan bir çalışma ve çeviri olmaması nedeniyle önemli bir boşluğu dolduracağını umut ediyorum.


Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir