POS Tag Indonesia

Part of Speech khusus Bahasa Indonesia.

Korpus

Deskripsi

Korpus Part-of-Speech Tag Bahasa Indonesia merupakan korpus yang berisi dokumen teks kalimat dalam bahasa Indonesia yang telah dianotasi nilai part-of-speech tag secara manual oleh manusia.

Data kalimat-kalimat yang terdapat di dalam korpus didapatkan dari PAN Localization . Kalimat-kalimat telah kami tokenisasi ulang dengan memperhatikan ekspresi frase menggunakan kamus bahasa Indonesia Kateglo . Korpus terdiri dari sepuluh ribu kalimat yang dibangun dari 256683 token.

Format yang digunakan oleh korpus adalah tab separated value. Setiap baris terdiri dari token dengan nilai part-of-speech tag yang dipisahkan oleh karakter tab. Baris kosong menandakan akhir kalimat. Berikut ini adalah contoh format korpus.

[kata] [postag]
[kata] [postag]
[kata] [postag]
[kata] [postag]
...
Publikasi, Tagset dan Korpus

Publikasi

Arawinda Dinakaramani, Fam Rashel, Andry Luthfi, and Ruli Manurung. Designing an Indonesian Part of speech Tagset and Manually Tagged Indonesian Corpus. International Conference on Asian Language Processing (IALP 2014). Kuching, 20-22 October 2014.
( PDF )

Tagset

Untuk mengetahui makna dari kode tagset yang digunakan, silakan unduh dokumentasi korpus.
Tagset

Korpus

via github
Lisensi
This work is licensed under the Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License. To view a copy of this license, visit http://creativecommons.org/licenses/by-nc-sa/4.0/.
Creative Commons License
Indonesian POS Tagged Corpus by Arawinda Dinakaramani, Fam Rashel, Andry Luthfi, and Ruli Manurung is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://www.panl10n.net/indonesia/