- GİRİŞ
- Veri Setinin Linki
- Verilere Giriş
- Veri Setinin Analizi
- Analiz Neler Kapsıyor?
- Kullanılan Teknikler / Teknolojiler
- Analiz Aşamaları
- Veri Seti Hadoop Tarafına Aktarmak
-
- Veri setindeki toplam ürün sayısını bulmak
-
- Her ürün için ortalama ürün değerlendirme puanı bulmak
-
- Sayıya göre sıralanmış en çok yorum alan ürünü bulmak
-
- TopN Değerlendirmede Bulunan Ürünlerin Toplam Değerlendirmeleri Bulmak
-
- Her ürün için yorum yapan tüm kullanıcıları bulmak
-
- Ürünün yorumları tarihe göre bölümlendirilmiş tüm kayıtları bulmak
-
- Ürünleri yıldız değerlendirmelerine göre kullanıcıya önermek
-
- Her ürün için tarihe göre gruplandırılmış yorumların sayısını bulmak
Bu çalışmada kapsamına Amazon sitesi analizi, büyük veri analizi esas alarak ve Hadoop mimarisi, Mahout ve Pig kullanarak gerçekleştirilmiş.
Amazon sitesindeki bulunan kamera ürününe ait yorumların incelenerek bilgilendirici bir sonuç üretilmiştir. Ürün olarak kamera seçildiğine rağmen, Amazon
sitesindeki herhangi bir ürün için geçerli olabilir, veri seti bulmak şartıyla.
Veri seti bu linkten indirebilir Amazon Camera Reviews. Amazon Camera Reviews
Ayrıca bu linkten de erişim sağlanabilir.
Text dosyasındaki veriler ('\ t') ile ayrılmış. Bu veri seti 1 GB boyutundadır. Dosyadaki ilk satır başlıktır; 1 satır 1 kayda karşılık gelir.
o marketplace: 2 harlı ülke kodu.
o customer_id: Tek bir yazar tarafından yazılan yorumları toplamak için bir anahtaradır.
o review_id: Yoruma ait anahtar.
o product_id: Yorum yapılan ürünün anahtarıdır. Çok dilli veri setinde, aynı ürün için farklı ülkelerdeki
incelemeler aynı şekilde gruplandırılabilir.
o product_parent: Aynı ürüne ilişkin yorumları toplamak için kullanılabilen anahtardır.
o product_title: Ürünün başlığı.
o product_category : Yorumları gruplamak için kullanılabilen geniş ürün kategorisi.
o star_rating : Yorumlara 1-5 arasında verilen yıldız sayısı.
o helpful_votes : Yararlı oyların sayısı.
o total_votes : Yorumun aldığı toplam oy sayısı.
o vine : Yorum, Vine programının bir parçası olarak yazılmıştır.
o verified_purchase : Yorumu yapan, doğrulanmış bir satın alma işlemi yapmış.
o review_headline : Yorumun başlığı.
o review_body : Yorumun metni.
o review_date : Yorum tarihi.
- Veri setinde bulunan toplam ürün sayısını bulmak.
- Her ürün için ortalama ürün değerlendirme puanı bulmak.
- Sayıya göre sıralanmış en çok yorum alan ürünü bulmak.
- En çok yorum alan ürünlerin arasında toplam ürün değerlendirmesini bulmak.
- Her ürün için yorum yapan tüm kullanıcıları bulmak.
- Ürünün yorumları tarihe göre bölümlendirilmiş tüm kayıtları bulmak.
- Ürünleri yıldız değerlendirmelerine göre kullanıcıya önermek.
- Her ürün için tarihe göre gruplandırılmış yorumların sayısını bulmak.
- Her ürün yıldız değerlendirmesini için ürün sayısını bulmak.
- Hadoop MapReduce.
- Summarization Pattern – Numerical Summarization, Inverted Index.
- Joins – Reduce Side Inner Join.
- Partitioning.
- Secondary Sorting.
- MapReduce Chaining.
- Filtering Pattern – TopN filtering pattern.
- Mahout Recommendation.
- Apache Pig.
Hadoop MapReduce teknolojisi ile veri setindeki toplam urun sayısı bulunmaktadır.
İnput : Veri Seti
Çıktı : ProductID, Product Count.
Metot : MapReduce.
Mapreduce'u çalıştırma komutu:
sudo hadoop jar <jar dosyası bulunduğu klasörün yolu>/AmazonAnalysis.jar
Hadoop MapReduce teknolojisi ile veri setindeki toplam urun sayısı bulunmaktadır.
İnput : Veri Seti
Çıktı : ProductID, Product Count, Product Average Rating.
Metot: MapReduce, Reduce metodu kombiner olarak da kullanılmıştır.
Komut :
sudo hadoop jar /home/cloudera/Desktop/bigdata/out/AmazonAnalysis.jar sau.AverageProductRating.ProductAverageRatingMain /input /output/AverageProductRating
İnput : 1. analizin çıktı dosyası <-> ProductCount
Çıktı: Product Count, ProductID.
Metot : Secondry Sorting. WritableComparator sınıfını genişleterek ilk 10 ürünü azalan sırada alacak şekilde gerçekleştirilmiştir.
TopN filtreleme modeli, ilk 10 ürünü bulmak için kullanılır.Filtreme Patern TopN
Komut :
sudo hadoop jar /home/cloudera/Desktop/bigdata/out/AmazonAnalysis.jar sau.topNProducts.TopNProductsMain /output/ProductCount /output/TopNProducts
İnput : 2. Ve 3. analizin çıktı dosyaları <-> TopNProducts, AverageProductRating
Çıktı: ProductID, Product Count, Product Average
Metot : Reduce Side Inner Join teknolojisi kesişen ürünleri elde etmek için kullanıldı.
Komut :
sudo hadoop jar /home/cloudera/Desktop/bigdata/out/AmazonAnalysis.jar sau.reduceSideInnerJoin.JoinMain /output/TopNProducts /output/AverageProductRating /output/ReduceSideInnerJoin
İnput : Veri Seti
Çıktı: : ProductID, User ID.
Metot : Kullanıcı bilgileri elde etmek için Inverted Index summarization pattern kullanıldı.
Komut :
sudo hadoop jar /home/cloudera/Desktop/bigdata/out/AmazonAnalysis.jar sau.invertedIndexPattern.InvertedIndexMain /input /output/InvertedIndex
İnput : Veri Seti
Çıktı: Ayrı bölümlere bölünmüş tüm veriler.
Metot : Bu analizi bölümlemek için özel bir sınıf genişletirmiştir.
Komut :
sudo hadoop jar /home/cloudera/Desktop/bigdata/out/AmazonAnalysis.jar sau.YearPartitioner /input /output/YearPartitioner
İlk olarak UserID, ProductID ve start rating’i almak için veriler temizlenir.
İnput : Temizlenmiş veriler.
Çıktı: UserID, ProductID, start rating.
Metot : Apache Mahout, MapReduce zinciri kullanıcıya ürün önermek amacıyla kullanılmıştır.
Komut :
sudo hadoop jar /home/cloudera/Desktop/bigdata/out/AmazonAnalysis.jar sau.mahoutRecommendation.RecommendationMain /input /output/MahoutRecommendation/data /output/MahoutRecommendation/recommendation
Apache Pig, her ürün için tarihe göre gruplandırılmış inceleme sayısını bulmak için kullanılmış.
İnput : Veri Seti
Çıktı: Date, Product Count.
Metot : Apache Pig.
Komut :
pig /home/cloudera/workspace/AmazonAnalysis/src/sau/pig/DailyReviewsCount.pig