Lewati ke isi

Changelog

v0.3.4

16 Oktober 2022

Bug Fixing

Memperbaiki dan mengganti inner pattern pada fungsi replace_word_elongation.

Updates

  1. Menambahkan wkwk pattern pada stopwords.
  2. Menggunakan inner flags untuk insensitive case.

v0.3.3

30 September 2022

Bug Fixing

Membenarkan bug pada pattern slang words yang disebabkan oleh common string pada SLANG_DATA.

v0.3.2

04 September 2022

Update

  • Mengubah return Dataset.read method menjadi dataclass Data.
  • Update docstring pada code.

v0.3.1

22 Agustus 2022

Documentation 📝

Membuat website dokumentasi untuk indoNLP menggunakan mkdocs dengan tema mkdocs-material dan menggenerasi kode referensi secara otomatis menggunakan mkdocstring.

  • Mengubah kode docstring ke Bahasa Indonesia.
  • Merge #3 ke master dan deploy dokumentasi menggunakan github action.

Bug Fixing

  • Memperbaiki top level import pada indoNLP/__init__.py
  • Memperbaiki inconsistent return pada fungsi indoNLP.dataset.reader.txt_table_reader

v0.3.0

17 Agustus 2022

New Features : Dataset 📖

Modul baru yaitu indoNLP.dataset yang memudahkan cara mengakses open dataset pada kasus NLP dalam Bahasa Indonesia.

v0.2.0

14 Juli 2022

Bug Fixing

Memperbaiki bug pada fungsi preprocessing.replace_word_elongation yang mengganti kata berulang disetiap posisi pada sebuah kata menjadi di akhir kata saja.

New Feature : Emoji Supports 🤗

Preproses teks yang mengandung emoji kedalam Bahasa Indonesia dan sebaliknya.

  1. emoji_to_words
  2. words_to_emoji

v0.1.1

30 Juni 2022

Fixing

Membenarkan typo preprocessing.pipline menjadi preprocessing.pipeline

v0.1.0

28 Juni 2022

Initial Release

Membuat modul preprocessing yang terdiri dari beberapa fungsi.

  1. preprocessing.remove_html
  2. preprocessing.remove_url
  3. preprocessing.remove_stopwords
  4. preprocessing.replace_slang
  5. preprocessing.replace_word_elongation
  6. preprocessing.pipeline