Changelog
v0.3.4
16 Oktober 2022
Bug Fixing
Memperbaiki dan mengganti inner pattern pada fungsi replace_word_elongation
.
Updates
- Menambahkan wkwk pattern pada stopwords.
- Menggunakan inner flags untuk insensitive case.
v0.3.3
30 September 2022
Bug Fixing
Membenarkan bug pada pattern slang words yang disebabkan oleh common string pada SLANG_DATA
.
v0.3.2
04 September 2022
Update
- Mengubah return
Dataset.read
method menjadi dataclassData
. - Update docstring pada code.
v0.3.1
22 Agustus 2022
Documentation 📝
Membuat website dokumentasi untuk indoNLP
menggunakan mkdocs dengan
tema mkdocs-material dan menggenerasi kode
referensi secara otomatis menggunakan mkdocstring.
- Mengubah kode docstring ke Bahasa Indonesia.
- Merge #3 ke master dan deploy dokumentasi menggunakan github action.
Bug Fixing
- Memperbaiki top level import pada
indoNLP/__init__.py
- Memperbaiki inconsistent return pada fungsi
indoNLP.dataset.reader.txt_table_reader
v0.3.0
17 Agustus 2022
New Features : Dataset 📖
Modul baru yaitu indoNLP.dataset
yang memudahkan cara mengakses open dataset pada kasus NLP
dalam Bahasa Indonesia.
v0.2.0
14 Juli 2022
Bug Fixing
Memperbaiki bug pada fungsi preprocessing.replace_word_elongation
yang mengganti kata berulang
disetiap posisi pada sebuah kata menjadi di akhir kata saja.
New Feature : Emoji Supports 🤗
Preproses teks yang mengandung emoji kedalam Bahasa Indonesia dan sebaliknya.
emoji_to_words
words_to_emoji
v0.1.1
30 Juni 2022
Fixing
Membenarkan typo preprocessing.pipline
menjadi preprocessing.pipeline
v0.1.0
28 Juni 2022
Initial Release
Membuat modul preprocessing
yang terdiri dari beberapa fungsi.
preprocessing.remove_html
preprocessing.remove_url
preprocessing.remove_stopwords
preprocessing.replace_slang
preprocessing.replace_word_elongation
preprocessing.pipeline