indonesian • english

Proyek yang sedang berjalan

WordNet bahasa Indonesia. Proyek ini adalah pembangunan versi awal sebuah WordNet untuk bahasa Indonesia. Kami telah mengembangkan sebuah aplikasi web yang mengumpulkan pemetaan secara manual antara konsep semantik bahasa Inggris dari Princeton WordNet dengan konsep semantik bahasa Indonesia dari KBBI. Kami juga sudah meneliti pemetaan secara otomatis menggunakan Latent Semantic Analysis (Riset Unggulan Universitas Indonesia - 2007)

Pengurai morfologi berbasis pemodelan finite-state. Bekerjasama dengan University of Sydney, kami sedang membanguan sebuah pengurai morfologi yang terperinci secara linguistik, dengan menggunakan dasar teori two-level morphology. Menggunakan Xerox finite state toolkit, pengurai ini dapat menguraikan kata berimbuhan yang kompleks menjadi kata dasar beserta informasi sintaks dan semantik yang sangat detil, dan sebaliknya. Kami juga sedang merumuskan pemodelan fenomena pengulangan dalam bahasa Indonesia, sebuah kasus morfologi non-concatenative, menggunakan pendekatan compile-replace.

Website penyimpanan korpus. Kami sedang merancang dan mengimplementasikan sebuah website yang nantinya diharapkan menjadi sumber rujukan untuk berbagai koleksi dokumen berbahasa Indonesia. Kumpulan korpus ini dirancang agar mengikuti berbagai standar terkait yang ada, seperti OLAC dan TEI, dan memungkinkan adanya beragam penganotasian terhadap data multimedia. Proyek ini adalah kolaborasi dengan University of Sydney.

Speech recognition. Kami sedang bereksperimen dengan pengembangan sistem pengenalan ucapan lisan berbahasa Indonesia pada skala besar dengan menggunakan piranti lunak open source seperti Sphinx dan Julius. Penelitian ini juga menitikberatkan pada pemodelan fonetik bahasa Indonesia secara spesifik untuk meningkatkan akurasi.

Treebank bahasa Indonesia. Dalam waktu dekat ini akan dilakukan pengembangan treebank untuk bahasa Indonesia, yaitu sebuah koleksi dokumen yang sudah diuraikan struktur sintaksnya secara manual. Sumber daya ini berangkat dari Penn Treebank, sebuah koleksi serupa untuk bahasa Inggris. Diharapkan bahwa treebank ini menjadi sumber informasi yang sangat berharga untuk pengembangan sistem penerjemahan otomatis dan pemodelan bahasa secara probabilistik.

Proyek yang sudah pernah dilakukan

Untuk informasi lebih lanjut mengenai riset yang terkait, silahkan kunjungi website Laboratorium Information Retrieval.