Lewati ke isi

Supported Dataset

Berikut adalah daftar dataset yang disupport oleh indoNLP.

Perhatian

Disupport disini dimaksudkan sebagai dataset yang dapat digunakan secara langsung tanpa konfigurasi tambahan oleh indoNLP. indoNLP tidak memiliki hak cipta apapun terkait dataset yang ada di daftar!

twitter-puisi

Puisi - puisi yang difilter dari beberbagai pengguna di Twitter.

Homepage

unlabeled

id-multi-label-hate-speech-and-abusive-language-detection

Muhammad Okky Ibrohim dan Indra Budi - 2019

Dataset untuk pembelajaran multi-label tentang hate speech dan abusive language detection dari berbagai tweet di Twitter.

Homepage

Cite

Muhammad Okky Ibrohim and Indra Budi. 2019. Multi-label Hate Speech and Abusive Language Detection in Indonesian Twitter. In ALW3: 3rd Workshop on Abusive Language Online, 46-57.

abusive language detection, hate speech, labeled, multi-label, twitter

id-abusive-language-detection

Muhammad Okky Ibrohim dan Indra Budi - 2018

Dataset untuk pembelajaran multi-label tentang abusive language detection pada Bahasa Indonesia.

Homepage

Cite

Ibrohim, M.O., Budi, I.. A Dataset and Preliminaries Study for Abusive Language Detection in Indonesian Social Media. Procedia Computer Science 2018;135:222-229.

abusive language detection, labeled

asian-language-treebank-parallel-corpus

Hammam Riza, Michael Purwoadi, Gunarso, Teduh Uliniansyah, Aw Ai Ti, Sharifah Mahani Aljunied, Luong Chi Mai, Vu Tat Thang, Nguyen Phuong Thai, Vichet Chea, Rapid Sun, Sethserey Sam, Sopheap Seng, Khin Mar Soe, Khin Thandar Nwet, Masao Utiyama, dan Chenchen Ding - 2016

Proyek ALT adalah proyek yang bertujuan untuk memajukan teknik NLP pada bahasa - bahasa di Asia melalui kolaborasi terbuka. Proses membangun ALT dimulai dengan mengambil sampel sekitar 20.000 kalimat dari Wikinews bahasa Inggris, dan kemudian diterjemahkan ke dalam bahasa lain.

Homepage

Cite

Hammam Riza, Michael Purwoadi, Gunarso, Teduh Uliniansyah, Aw Ai Ti, Sharifah Mahani Aljunied, Luong Chi Mai, Vu Tat Thang, Nguyen Phuong Thai, Vichet Chea, Rapid Sun, Sethserey Sam, Sopheap Seng, Khin Mar Soe, Khin Thandar Nwet, Masao Utiyama, Chenchen Ding. (2016) 'Introduction of the Asian Language Treebank' Oriental COCOSDA.

machine translation