Arif Laksito: Attention

Alhamdulillah artikel pertama di 2025! 😉

Large Language Model (LLM) adalah sistem komputer canggih yang mampu melakukan pemrosesan bahasa alami dengan cara yang menyerupai kemampuan manusia. Sistem ini dibangun menggunakan jaringan saraf dalam (deep neural network) dengan arsitektur yang dikenal sebagai transformer, yang telah dilatih menggunakan kumpulan data berskala besar.

Sebelum munculnya teknologi berbasis transformer, berbagai metode pemrosesan bahasa umumnya menggunakan pendekatan berbasis aturan (rule-based) atau teknik statistik. Metode-metode tersebut biasa diterapkan dalam tugas-tugas pengolahan bahasa yang spesifik, seperti klasifikasi email spam, deteksi ujaran kebencian, maupun pengenalan jenis entitas dari suatu kata atau frasa (named entity recognition). Pendekatan lama ini cenderung kurang fleksibel karena sangat bergantung pada aturan yang telah ditentukan sebelumnya dan kemampuan statistik terbatas yang dimiliki oleh sistem tersebut.

Sejarah LLM

Sejarah perkembangan LLM diawali dari teknik bag-of-words, yang diperkenalkan tahun 50-an dan kembali populer sekitar tahun 2000-an. Secara sederhana metode ini memproses bahasa alami di mana teks dianggap sebagai kumpulan kata tanpa memperhatikan urutan atau konteks kalimat.

Pada tahap berikutnya, muncul pendekatan berbasis statistik yang lebih maju, seperti TF-IDF (Term Frequency–Inverse Document Frequency), yang memberikan bobot pada kata berdasarkan frekuensi kemunculannya dalam dokumen tertentu dibandingkan dokumen lain dalam dataset.

Perubahan signifikan dalam pemrosesan bahasa terjadi sekitar tahun 2013 dengan diperkenalkannya teknik berbasis jaringan saraf (neural network). Salah satu terobosan awal dalam era ini adalah model Word2Vec, yang mampu menghasilkan representasi kata dalam bentuk vektor (word embedding) sehingga model dapat menangkap hubungan semantik antar kata.

Pada tahun 2017, revolusi besar terjadi ketika Vaswani (peneliti dari Google) memperkenalkan arsitektur Transformer dalam artikel yang terkenal berjudul "Attention is All You Need". Model ini membawa inovasi penting dengan menggunakan mekanisme attention yang memungkinkan model memahami hubungan konteks antar kata dalam teks secara lebih efektif.

Transformer kemudian menjadi pondasi bagi pengembangan berbagai model bahasa besar, seperti BERT yang diperkenalkan Google pada tahun 2018 dan GPT yang dikembangkan oleh OpenAI. Pada tahun-tahun berikutnya, LLM semakin berkembang dengan kehadiran model-model yang lebih besar dan canggih, seperti GPT-2, RoBERTa, T5, LLaMA dan ChatGPT.

Arsitektur Transformer

Arsiektur ini terdiri dari 2 komponen, yaitu: encoder dan decoder. Modul Encoder memproses input text dan melakukan encoding menjadi serangkaian representasi dalam bentuk nomer (numerical representation) atau biasa disebut vector, yang bertugas menangkap informasi konstektual dari input. Kemudian, modul decoder mengambil encoded vector dan mengenerate text output.

Dalam artikel Vaswani tersebut, transformer digunakan untuk tugas mesin penterjemah. Dimana encoder melakukan encoding text dari bahasa asal, dan decoder akan mengenerate text untuk bahasa target.

Komponen penting di transformers adalah mekanisme ”self-attention”, yang memungkinkan model untuk memperhatikan konteks dari setiap kata/token lebih efektif. Mekanisme ini memungkinkan model memahami dependensi kata (jarak jauh) sehingga menghasilkan keluaran text yang lebih koheren serta relevan dengan konteks.

Tipe language model

1. Representation Models

Di tahun 2018, arsitektur baru yaitu BERT (Bidirectional Encoder Representation from Transformers) diperkenalkan oleh Google dengan hanya menggunakan modul Encoder. Arsitektur ini biasa disebut juga Representation Models yang cukup bagus dalam menghasilkan representasi semantik yang kuat. BERT banyak digunakan untuk tugas-tugas klasifikasi text. Disebutkan juga bahwa aplikasi X (sebelumnya Twitter) menggunakan BERT untuk mendeteksi konten toxic.

Jenis model ini biasa digunakan untuk transfer learning, dimana pertama dilakukan pre-training dan dilanjutkan dengan fine-tuning untuk tugas-tugas yang spesifik. Sebagai contoh, pre-training BERT pada Wikipedia corpus (secara unsupervised) untuk memahami kontekstual dan semantic text. Kemudian dilanjutkan dengan fine-tune pada tugas spesifik seperti text clsassification (secara supervised).

2. Generative Models

Sementara itu, OpenAI memperkenalkan GPT (Generative Pre-trained Transformer) yang berfokus pada bagian Decoder dalam arsitektur Transformer. Arsitektur ini disebut juga Generative models yang cukup powerful untuk tugas-tugas generative text seperti mesin penterjemah, text summarisation, code completion, dll.

Model ini dilatih menggunakan kumpulan data besar (korpus di internet) secara unidirectional, artinya saat memprediksi kata berikutnya, GPT akan melihat konteks di sebeleh kiri/konteks sebelumnya.

Pada umunya kita dapat melakukan inference pada model ini menggunakan prompt/query tanpa perlu melatih model tersebut. Prompt engineering menjadi topik yang menarik untuk dieksplorasi karena hasil yang dihasilkan model sangat dipengaruhi oleh konteks dan instruksi yang diberikan melalui prompt. Dengan menyusun prompt secara tepat, pengguna dapat “menggiring” model untuk menghasilkan keluaran yang sesuai dengan kebutuhan tertentu.

3. Encoder-decoder Models

Selain kedua arsitektur sebelumnya, encoder-decoder models merupakan bentuk asli dari arsitektur Transformer yang pertama kali diperkenalkan oleh Vaswani. Model ini dirancang untuk memahami konteks dari input secara mendalam dan menghasilkan output berupa teks baru, sehingga sangat cocok digunakan untuk tugas-tugas generatif seperti text summarization. Beberapa model populer yang mengadopsi arsitektur ini adalah T5 dari Google dan BART dari Facebook.

Large-language Models (LLMs)

Istilah "larger" disini merujuk pada language models dengan ukuran besar (diukur dengan satuan jumlah parameter). Umumnya generative/decoder-only models disebut sebagai LLMs, meskipun model lain seperti (BERT/Encoder-decoder) bisa juga mempunyai jumlah parameter yang besar.

Apa yang saat ini kita anggap sebagai LLM atau model besar, mungkin dalam beberapa tahun ke depan hanya akan dianggap sebagai model berskala menengah atau bahkan kecil karena pesatnya perkembangan di bidang ini

Sebagai contoh, GPT-1 memiliki sekitar 117 juta parameter, yang pada masanya sudah dianggap sebagai LLM. Namun, hanya dalam beberapa tahun, angka ini berkembang pesat. GPT-2 dirilis dengan 1,5 miliar parameter, diikuti oleh GPT-3 yang melonjak drastis hingga 175 miliar parameter.

Interfacing dengan LLMs

Interfacing pada LLMs merupakan proses atau mekanisme dalam menghubungkan LLMs dengan pengguna atau sistem lain, sehingga model dapat menerima input dan memberikan output sesuai kebutuhan. Dalam melakukan interfacing ke LLMs, kita perlu mengenal jenis LLMs yaitu Closed-source dan Open models.

Closed-source Models

Closed-source models adalah LLM yang tidak dirilis secara terbuka oleh pengembangnya, baik dari sisi arsitektur penuh maupun parameter modelnya. Biasanya, model seperti ini hanya dapat diakses melalui layanan komersial atau API resmi yang disediakan oleh perusahaan tertentu, seperti OpenAI (GPT-4), Anthropic (Claude), atau Google (Gemini).

Kelebihan dari closed-source models adalah performa yang biasanya sangat optimal karena dikembangkan dan dilatih dengan sumber daya yang sangat besar. Namun, pengguna tidak memiliki kontrol penuh atas model, seperti melakukan fine-tuning atau modifikasi arsitektur.

Selain itu, keunggulan model ini adalah panguna tidak perlu hardware GPU yang besar karena resource ini telah disediakan oleh perusahaan penyedia sebagai gantinya kita perlu mebayar biaya tertentu untuk akses ke API tersebut.

Open Models

Sementara itu, open models adalah LLM yang dirilis secara terbuka oleh komunitas atau organisasi, baik dalam bentuk arsitektur maupun bobot terlatih (pre-trained weights). Contoh populer dari open models adalah LLaMA (Meta), Mistral, Falcon, dan BLOOM.

Keunggulan dari open models adalah fleksibilitas yang lebih tinggi. Pengguna dapat mengunduh, menjalankan, dan bahkan melakukan fine-tuning sesuai kebutuhan spesifik mereka. Namun, tanggung jawab dalam hal deployment dan optimalisasi performa juga berada di tangan pengguna.

Untuk dapat melakukan inference ke Open models kita perlu mempersiapkan hardware GPU yang sesuai dengan ukuran model yang akan kita gunakan.

Sebagai penutup, berikut contoh script yang di jalankan di Google Colab dengan menggunakan library transformers dari Huggingface (anda dapat memilih berbagai model LLMs yang tersedia). Saat menjalankan Google Colab bisa anda ubah runtime type ke T4 GPU.

Output dari kode diatas adalah:

"Why did the chicken join the band? Because it had the drumsticks!".

Jika anda ganti prompt menjadi bahasa Indonesia, misalkan "Buat lelucon terkait dengan ayam" maka hasilnya adalah deskripsi tentang ayam. Disini terlihat model tersebut tidak memahami instruksi dari user. Silahkan anda bisa coba beberapa model lain sebagai perbandingan hasil output LLMs.

Selamat mencoba, semoga bermanfaat!

Silahkan menunggu update blog berikutnya terkait dengan LLMs yak 😊

Referensi

1) Alammar, J., & Grootendorst, M. (2024). Hands-on large language models: language understanding and generation. " O'Reilly Media, Inc.".

2) Raschka, S. (2024). Build a Large Language Model (From Scratch). Simon and Schuster.

3) Semua figures dibuat menggunakan app di https://excalidraw.com/

Menu

Tuesday, March 18, 2025

Mengenal Large-language Models (LLMs)