Showing posts with label collaborative filtering. Show all posts
Showing posts with label collaborative filtering. Show all posts

Friday, August 20, 2021

Menghitung Similarity dan Prediksi rating pada Collaborative filtering menggunakan Python

Melanjutkan artikel sebelumnya, bagaimana menghitung similarity antara user di sistem rekomendasi collaborative filtering(CF) dengan menggunakan excel, pada artikel ini saya akan share menghitung similarity user dan prediksi rating dengan menggunakan bahasa python di jupyter notebook.

Prediksi rating

Pada eksperimen ini akan digunakan sample data yang sama seperti pada artikel sebelumnya, lebih detail bisa anda simak disini: "Memahami Collaborative filtering di Sistem rekomendasi". Untuk pembahasan notebook tersebut saya bagi kedalam 2 bagian yaitu: User-based dan Item-based.

User-based CF Notebook

Pertama diperlukan membuat sample data dari library pandas yang kemudian kita susun menjadi matrix untuk user, item, dan rating. Pada matrix tersebut, nilai Nan/kosong di ubah menjadi rating dengan nilai 0.


Matrix user-based rating

Selanjutnya kita akan buat nilai rerata dari tiap user dan membuat matrix baru dengan nilai rating diambil dari selisih rerata dan rating asli.


Untuk menghitung similarity, dapat menggunakan library dari sklearn yaitu cosine_similarity. Disini kita perlu membuat suatu fungsi dengan parameter yaitu matrix rating, user aktif (yang akan kita cari nilai rating kosongnya) dan nilai k (jumlah tetangga/neighbor).


Output dari fungsi diatas akan menghasilkan nilai similarity dari user: Arif ke user lainnya berdasar dari matrix yang kita inputkan di parameter.

(['Don', 'Bob'], [0.7071067811865476, 0.30151134457776363])
Langkah terakhir adalah kita buat fungsi predict( ) untuk menghitung prediksi nilai kosong dari matrix tersebut pada user Arif di item-4.


Output dari fungsi tersebut adalah prediksi rating pada kolom item-4 seperti berikut:

array([[4.42526623],
       [1.93594684],
       [3.42953847]])

Item-based CF Notebook

Sedikit berbeda dengan code sebelumnya, pada code item-based ini kita akan melakukan prediksi pada beberapa rating kosong. Mari kita bedah code tersebut dari awal. Dimulai dari membuat matrix rating data sample data seperti pada postingan ini: "Memahami Collaborative filtering di Sistem rekomendasi".


Matrix item-based rating

Berikutnya kita bisa buat fungsi untuk menghitung similarity antara 2 item


Sedangkan fungsi predict( ) untuk item-based ini sedikit lebih complicated, berikut langkah-langkah penjelasannya:
  1. Perulangan pertama adalah menjadikan nilai setiap item menjadi list
  2. Perulangan ke-2 kita gunakan untuk memfilter rating 0 dari tiap user
  3. Didalam perulangan ke-2, terdapat perulangan lagi untuk menghitung nilai prediksi dengan membaca per-baris dari rating item.

Setelah kita running fungsi diatas, maka akan menghasilkan output dalam bentuk list beberapa rating prediksi dari rating 0 di matrix yang kita inputkan pada parameter.

[2.4899844588770113, 3.4286096052067627, 2.0]
Sebagai informasi, pada kedua kode diatas belum ada fungsi untuk mengenerate item rekomendasi, disini hanya fokus pada bagaimana menghitung nilai similarity dan prediksi saja. Jika anda ingin mendapatkan kode lengkap di file python notebook (*.ipynb), silahkan isi pada kolom komentar dengan email anda, inshaAllah akan saya share kode lengkap tersebut.

Referensi

  1. Gambar diambil dari https://www.formstack.com/resources/blog-new-rating-field
  2. User-based collaborative filtering, https://www.geeksforgeeks.org/user-based-collaborative-filtering/
  3. Item-based collaborative filtering, https://www.geeksforgeeks.org/item-to-item-based-collaborative-filtering/

Thursday, July 8, 2021

Memahami Collaborative filtering di Sistem rekomendasi

Collaborative filtering adalah teknik dalam sistem rekomendasi yang populer digunakan saat ini. Banyak penelitian yang membahas tentang teknik ini karena beberapa keunggulannya seperti: menghasilkan serendipity(tak terduga) item,  sesuai trend market, mudah diimplementasikan dan memumgkinkan diterapkan pada beberapa domain (book, movies, music, dll). 

Pengenalan sistem rekomendasi dan teknik lainnya bisa anda temukan pada artikel berikut:

Cara kerja teknik ini adalah dengan memanfaatkan data pada komunitas dengan cara mencari kemiripan atar pengguna, yaitu mengasumsikan bahwa pengguna yang memiliki preferensi serupa di masa lalu cenderung memiliki preferensi yang sama di masa depan. Pada dasarnya kita akan lebih percaya dengan rekomendasi dari orang yang memiliki preferensi sama dengan kita, inilah dasar yang digunakan oleh collaborative filtering dalam mengenerate item rekomendasi.


Dalam menghasilkan rekomendasi, sistem perlu mengumpulkan data. Tujuan dari pengumpulan data ini adalah untuk mendapatkan ide preferensi pengguna, dimana nantinya akan dibuat suatu rekomendasi berdasarkan preferensi tersebut. Terdapat 2 cara dalam mengumpulkan data, yaitu: Implicit dan Explicit.

Explicit merupakan cara pengumpulan informasi yang membutuhkan effort dari pengguna dengan memberikan feedback terhadap sistem, seperti mengisikan rating pada item (skala 1-5 atau skala lainnya) dan memilih tombol like atau dislike. Di sisi lain, implisit tidak membutuhkan interaksi dari pengguna ke sistem. Dengan kata lain, sistem secara otomatis mempelajari behavior dari pengguna saat menggunakan sistem, seperti melakukan perekaman informasi lama waktu saat melihat item, genre/kategori apa saja yang sering dilihat dan item apa saja yang pernah dibeli. Cara explisit lebih susah diterapkan, karena tidak semua pengguna melakukan penilaian terhadap item, hal ini yang akan menyebabkan kendala pada teknik collaborative filtering karena banyaknya rating kosong.

Collaborative filtering sendiri terbagi menjadi 2 bagian, yaitu Memory-based dan Model-based. Memory-based melakukan komputasi secara real-time, sedangkan Model-based menggunakan beberapa teknik di machine learning atau matrix factorization untuk melakukan training model terlebih dahulu dan bisa dilakukan secara offline. Memory-based memiliki keunggulan dalam hal kemudahan implementasi tetapi terkendala pada ukuran matrix besar yang menyebabkan scalablity dalam perhitungan. Teknik Memory-based terbagi ke dalam 2 class, yaitu: User-based dan Item-based. Teknik lain yaitu Model-based dengan beberapa metode seperti: Matrix factorization, Neural network, Bayesian, dll akan saya bahas di artikel lain. Kali ini saya akan detail bahas untuk yang Memory-based Collaborative filtering.

Kategori collaborative filtering


User-based vs Item-based CF

Memory-based collaborative filtering sering disebut juga dengan neighborhood-based collaborative filtering algorithms. Berikut ini penjelasan detail dari kedua class dalam Memory-based:

1. User-based collaborative filtering

Merupakan teknik yang digunakan untuk memprediksi item yang mungkin disukai pengguna berdasarkan penilaian yang diberikan pada item tersebut oleh pengguna lain yang memiliki selera yang sama dengan pengguna target. Berikut ini contoh penerapan dalam excel:



Pada matrix diatas, pengguna target adalah Arif, dimana kita akan memprediksi rating pada item_5. Tahap awal yang dilakukan adalah mencari pengguna yang memiliki preferensi sama dengan Arif. Lakukan perhitungan rata-rata rating dari setiap pengguna untuk item selain item_5, dihasilkan seperti berikut:



Kolom terakhir tersebut merupakan rata-rata dari tiap pengguna, misalkan Arif = (5+4+1+4)/4 = 3.50. Jika anda gunakan excel maka akan sangat cepat melakukan hitungan tersebut. Selanjutnya kita buat matrix baru yang berisi selisih dari rating asal dengan nilai rata-rata dari tiap pengguna.


Jika anda perhatikan rating Arif - item_1 didapatkan dari rating asal dikurangkan nilai rerata pengguna, yaitu:  5 - 3.5 = 1.5, rating Arif - item_2, yaitu:  4 - 3.5 = 0.5, dan seterusnya. Tahapan berikutnya adalah kita menghitung nilai similarity antar Arif dengan pengguna lainnya. Disini akan digunaan rumus cosine similarity yaitu seperti ini:

Misalkan kita akan hitung nilai similarity Arif dan Bob, maka didapatkan hasil seperti dibawah:

Dengan bantuan excel cukup kita drag saja rumus tersebut dan hasil dari similarity dari Arif dan ketiga pengguna lainnya adalah sebagai berikut:


Dari hasil perhitungan tersebut terlihat bahwa nilai similarity paling tinggi adalah antar Arif dengan Don yaitu 0.707. Nilai cosine similarity semakin besar nilai nya (mendekati 1) maka semakin mirip kedua vektor tersebut. Selanjutnya adalah prediksi rating untuk pengguna Arif pada item_5. Untuk menentukan prediksi ini kita bisa tentukan threshold/batas nilai kemiripan dari similarity pengguna, misalkan kita asumsikan similarity di dataset ini jika nilainya lebih dari 0.3, maka yang akan kita lakukan perhitungan data dari Arif, Bob dan Don. Clark tidak masuk perhitungan karena nilai similarity dibawah 0.3 (threshold yang kita tentukan). Untuk penentuan nilai threshold ini tidak ada aturan baku, jadi jika anda melakukan eksperimen silahkan di uji coba beberapa nilai threshold yang akan digunakan.

Dari rumus diatas kita bisa melakukan perhitungan untuk prediksi rating Arif ke item_5 dengan menggunakan neighbor Bob dan Don, yaitu nilai rerata Arif dijumlahkan dengan sigma dari nilai similarity antar pengguna dikalikan selisih rating dan rerata dibagi nilai absolute dari similarity beberapa pengguna tersebut.


Hasil dari prediksi rating tersebut (Arif - item_5) adalah 4.425. Bagaimana selanjutnya untuk mengenerate item rekomendasinya? Simulasi diatas hanya prediksi satu rating saja, untuk menghasilkan item rekomendasi kita bisa gunakan data real dengan jumlah data yang besar. Misalkan pada dataset real, rating Arif masih kosong di sejumlah item, misalkan item_5, item_13, item_104, item_451, item_533, dst. Dari hasil perhitungan prediksi pada rating-rating kosong tersebut, kita bisa urutkan dari rating besar ke kecil, kemudian iem-item berdasar rating tersebut bisa kita jadikan list sebagai item rekomendasi, kita juga bisa batasi sejumlah item saja(misal 5 item atau 10 item), atau biasa disebut Top-N recommendations.

2. Item-based collaborative filtering

Item-based collaborative filtering pertama kali digunakan oleh Amazon pada tahun 1998. Teknik ini tidak mencocokan kemiripan antar pengguna, tetapi melakukan pencocokan setiap item yang dinilai/rating pengguna dengan item serupa, lalu menggabungkan item serupa tersebut ke dalam daftar rekomendasi. Secara detail proses nya sebagai berikut:



Pada contoh dataset diatas, kita akan melakukan prediksi dari 3 rating kosong, yaitu: Arif - item_2, Bob - item_3 dan Don - item_1. Rumus yang kita gunakan masih sama pada user-based collaborative filtering, yaitu cosine similarity. Tahap awal adalah kita lakukan proses similarity dari ketga item tersebut, yaitu:

similarity item_1 dan item_2
i1 = 5(B1) + 3(C1)
i2 = 2(B2) + 3(C2)
sim(i1, i2) = (5*2)+(3*3)/sqrt(5^2 + 3^2) . sqrt(2^2 + 3^2) = 0.90

Perhatikan pada perhitungan diatas, hanya rating yang tidak kosong pada kedua item diatas yang dilakukan untuk perhitungannya, yaitu rating pada item_1 dan item_2 yang dinilai oleh Bob dan Clark.


Tabel diatas adalah hasil perhitungan di excel dari similarity ketiga item tersebut. Selanjutnya adalah kita lakukan prediksi untuk rating-rating kosong diatas. Berikut ini contoh perhitungan prediksi untuk rating(Arif, item_2) 

Dari hasil perhitungan di excel dari ketiga rating kosong tersebut didapatkan hasil seperti ini


Proses berikutnya dalam menghasilkan item rekomendasi sama seperti pada proses user-based diatas, yaitu dengan menghitung similarity antar item, melakukan prediksi rating kosong, kemudian melakukan ordering untuk dijadikan item rekomendasi.

Kesimpulan

Collaborative filtering merupakan teknik/paradigma yang populer digunakan dalam sistem rekomendasi. Terdapat 2 metode yang digunakan dalam collaborative filtering yaitu: memory-based dan model-based. Memory-based memiliki keunggulan dalam kemudahan proses perhitunganya tetapi memiliki kendala dalam scalabilty, karena metode ini berjalan secara real-time dan terkendala jika matrix user-item berukuran besar. Dua cara dalam perhitungan di memory-based, yaitu: user-based dan item-based, kedua teknik tersebut sama-sama memanfaatkan rating pengguna terhadap item dalam proses perhitungannya. Pada user-based dilakukan proses perhitungan similarity/kesamaan atara pengguna, sedangkan item-based melakukan proses perhitungan similarity antar item.

Bagaimana kita melakukan siimulasi perhitungan data berukuran besar, pastinya menggunakan excel akan sangat merepotkan. InshaAllah pada artikel berikutnya saya akan bahas cara perhitungan nya menggunakan python di jupyter notebook atau google colab.

Jika anda membutuhkan file excel dari perhitungan diatas, silahkan tuliskan alamat email pada kolom komentar, segera akan saya kirimkan file excel tersebut. Semoga bermanfaat!

Referensi

  1. Recommender System, A Computer Science Comprehensive Exercise, Carleton College, https://www.cs.carleton.edu/cs_comps/0607/recommend/recommender/collaborativefiltering.html
  2. Pengantar Recommender System, Yotube: Mas Baizal, https://www.youtube.com/watch?v=gu-tf3tzMgA&t=20s
  3. F.O.Isinkaye, et al, Recommendation systems: Principles, methods and evaluation, Egyptian Informatics Journal Volume 16, Issue 3, November 2015, Pages 261-273
  4. User-based collaborative filtering, https://www.geeksforgeeks.org/user-based-collaborative-filtering/
  5. Item-to-item based collaborative filtering, https://www.geeksforgeeks.org/item-to-item-based-collaborative-filtering/
  6. Item-based collaborative filtering in Python, https://predictivehacks.com/item-based-collaborative-filtering-in-python/


Wednesday, March 4, 2020

Mengenal Sistem Rekomendasi


Artikel kali ini berkaitan dengan posting saya sebelumnya, saat itu saya tiba-tiba mendapatkan video rekomendasi dari youtube yaitu "[GUIDE] Pebble Screen Tearing Fix". Padahal ketika itu saya sedang exploring video-video smartwatch... Naah kebetulan sekali muncul video tersebut.

Yang jadi pertanyaan adalah.., koq bisa ya Youtube tau apa yang saya butuhkan, atau apa yang bermanfaat buat saya. Teknik ini lah yang disebut dengan Recommendation System atau Sistem Rekomendasi, dimana pengguna akan disuguhkan informasi yang berkaitan dengan item atau karakteristik pengguna tersebut. Menurut saya faktor kebetulan atau Serendipity pada teknik ini sangat kereen, dimana pengguna di tawarkan suatu item/produk yang tak terduga.

Awal mula sistem rekomendasi


Berdasar artikel tahun 1995 tentang social information filtering, saat itu telah ada penelitian di bidang rekomendasi pada database musik yang bernama Ringo, dimana telah dilakukan teknik personalized recommendations. Setelah era berkembangnya internet dan maraknya e-commerce, search engine,  social media dan teknologi berbasis web lainnya, beberapa teknik pada sistem rekomendasi banyak bermuculan untuk menghasilkan item rekomendasi yang lebih baik.

Contoh penggunaan sistem rekomendasi

Peran sistem rekomendasi menjadi penting seiring dengan pertumbuhan data di internet yang sangat pesat dan besar. Dengan meledaknya data-data tersebut, filtering/penyaringan informasi yang berguna/bermanfaat secara personal menjadi bagian yang penting. Disinilah peran sistem rekomendasi dalam melakukan filtering untuk menghasilkan rekomendasi yang baik.

Beberapa perusahaan e-commerce menggunakan sistem rekomendasi untuk menunjang bisnis mereka, seperti: Netflix, Amazon, YouTube, Facebook, Google, MovieLens, Last.fm, Alibaba, eBay, dll.  Dari sejumlah artikel menyebutkan tujuan dari implementasi sistem rekomendasi ini adalah menampilkan list item/produk yang relevan, terbarukan/novelty, kebetulan/serendipity dan beragam/diversity.

MovieLens merupakan salah satu gudang data yang menyediakan data movie, users dan ratings dalam jumlah besar yang sering digunakan oleh banyak peneliti untuk pengujian performa atau membentuk model baru dalam sistem rekomendasi.

Dashboard MovieLens setelah user login
Beberapa sistem rekomendasi pada aplikasi Iflix, Blibli, GoFood dan GrabFood yang memeberikan rekomendasi terkait preference dari pengguna atau item/produk.

Rekomendasi dari iflix beberapa film kartun 😆

Di Blibli saya direkomendasikan membeli Sneakers & Tab ✌😁


Di GrabFood saya disarankan membeli dari resto-resto tersebut

Umumnya terdapat dua pendekatan dalam membangun sistem rekomendasi, yaitu: content-based filtering(CB) dan collaborative filtering(CF), kurang lebih berikut ini detailnya.. 

1. Content-based filtering(CB)

Metode ini memberikan rekomendasi berdasarkan data deskripsi item/produk yang tersedia. Sistem akan mencari persamaan produk berdasarkan deskripsi yang ada. Preferensi pengguna dalam melakukan interaksi terhadap produk akan direkam dan produk dengan kemiripan tertentu akan direkomendasikan kepada pengguna tersebut. Kurang lebih ilustrasi teknik ini seperti pada gambar berikut:

Metode content-based filtering
Pada metode CB ini terdapat beberapa keunggulan, yaitu: 
  • Pengguna akan mendapatkan rekomendasi terhadap produk yang disukainya. 
  • Jika terdapat produk baru akan dengan mudah direkomendasikan jika sesuai dengan karakter produk sejenis. 
Meski demikian terdapat juga beberapa kelemahan pada metode ini: 
  • Tidak bisa memunculkan fitur serendipity, karena jenis produk yang berbeda. 
  • Ekstraksi/pengambilan informasi tipe data video, audio, image sulit dilakukan, karena membutuhkan algoritma yang rumit & kompleks. 
  • Perusahaan bisnis e-commerce tidak dapat ekspansi penjualan produknya, karena tipe produk berbeda tidak muncul sebagai rekomendasi ke pengguna.

2. Collaborative filtering(CF)

Pada CF, sistem memberikan rekomendasi berdasarkan pada karakteristik dari pengguna dengan pengguna yang lain. Oleh karena itu, data history transaksi atau rating dari pengguna menjadi komponen penting dalam metode ini. Misalkan pengguna A membeli kopi, kentang goreng dan telur mata sapi sedangkan pengguna B membeli kopi dan kentang goreng. Maka kemungkinan besar pengguna B juga akan membeli telur mata sapi, karena berdasarkan karakteristik antar pengguna terdapat kecocokan. Konsep inilah yang digunakan oleh metode CF dalam sistem rekomendasi.  Berikut ilustrasi dari metode CF:

Metode collaborative filtering

Di metode CF ini dapat mengatasi kelemahan pada metode CB, yaitu serendipity, dimana pengguna akan merasa surprise mendapatkan rekomendasi produk-produk yang tidak mereka bayangkan sebelumnya. Tetapi di metode CF sistem akan menghasilkan rekomendasi yang baik berdasarkan data rating dari pengguna, kondisi jarangnya data-data tersebut menyebabkan sistem rekomendasi berjalan tidak maksimal, atau istilahnya disebut sparse data.

Artikel terkait detail pembahasan content-based dan collaborative filtering bisa anda telusuri di link berikut ini:
  1. Membangun sistem rekomendasi dengan teknik content-based filtering
  2. Memahami collaborative filtering di sistem rekomendasi

Kesimpulan

Implementasinya kedua metode dalam sistem rekomendasi tersebut digunakan sesuai kebutuhan, misalkan pada bisnis produk yang sejenis bisa menggunakan metode CB, sedangkan untuk produk-produk beragam, metode CF bisa dipilih. Algoritma pada metode CB sebagian besar menggunakan KNN atau teknik searching dan matching, sedangkan di CF lebih beragam lagi algoritma yang digunakan, seperti: neural network atau matrix factorization.

Gabungan metode keduanya, atau biasa disebut dengan metode Hybrid telah banyak dikembangkan juga untuk menghasilkan rekomendasi yang lebih baik. Trend penelitian saat ini banyak ke arah prediksi matrix data untuk mengatasi kendala sparse data di CF atau pengembangan metode hybrid  di sistem rekomendasi dengan berbagai macam teknik.

Bagi mahasiswa yang tertarik mengambil tema penelitian ini, bisa kontak saya untuk diskusi lebih lanjut yaa.. InshaAllah artikel selanjutnya akan saya bahas beberapa teknik implementasi di metode collaborative filtering.