Supported Dataset
Berikut adalah daftar dataset yang disupport oleh indoNLP
.
Perhatian
Disupport disini dimaksudkan sebagai dataset yang dapat digunakan secara langsung tanpa
konfigurasi tambahan oleh indoNLP
. indoNLP
tidak memiliki hak cipta apapun terkait
dataset yang ada di daftar!
twitter-puisi
Puisi - puisi yang difilter dari beberbagai pengguna di Twitter.
unlabeled
id-multi-label-hate-speech-and-abusive-language-detection
Muhammad Okky Ibrohim dan Indra Budi - 2019
Dataset untuk pembelajaran multi-label tentang hate speech dan abusive language detection dari berbagai tweet di Twitter.
Cite
Muhammad Okky Ibrohim and Indra Budi. 2019. Multi-label Hate Speech and Abusive Language Detection in Indonesian Twitter. In ALW3: 3rd Workshop on Abusive Language Online, 46-57.
abusive language detection, hate speech, labeled, multi-label, twitter
id-abusive-language-detection
Muhammad Okky Ibrohim dan Indra Budi - 2018
Dataset untuk pembelajaran multi-label tentang abusive language detection pada Bahasa Indonesia.
Cite
Ibrohim, M.O., Budi, I.. A Dataset and Preliminaries Study for Abusive Language Detection in Indonesian Social Media. Procedia Computer Science 2018;135:222-229.
abusive language detection, labeled
asian-language-treebank-parallel-corpus
Hammam Riza, Michael Purwoadi, Gunarso, Teduh Uliniansyah, Aw Ai Ti, Sharifah Mahani Aljunied, Luong Chi Mai, Vu Tat Thang, Nguyen Phuong Thai, Vichet Chea, Rapid Sun, Sethserey Sam, Sopheap Seng, Khin Mar Soe, Khin Thandar Nwet, Masao Utiyama, dan Chenchen Ding - 2016
Proyek ALT adalah proyek yang bertujuan untuk memajukan teknik NLP pada bahasa - bahasa di Asia melalui kolaborasi terbuka. Proses membangun ALT dimulai dengan mengambil sampel sekitar 20.000 kalimat dari Wikinews bahasa Inggris, dan kemudian diterjemahkan ke dalam bahasa lain.
Cite
Hammam Riza, Michael Purwoadi, Gunarso, Teduh Uliniansyah, Aw Ai Ti, Sharifah Mahani Aljunied, Luong Chi Mai, Vu Tat Thang, Nguyen Phuong Thai, Vichet Chea, Rapid Sun, Sethserey Sam, Sopheap Seng, Khin Mar Soe, Khin Thandar Nwet, Masao Utiyama, Chenchen Ding. (2016) 'Introduction of the Asian Language Treebank' Oriental COCOSDA.
machine translation