From c9ae5aa32897fe60396c108508b7861ac6c995d3 Mon Sep 17 00:00:00 2001 From: FadiKalash Date: Sun, 8 Mar 2026 23:29:17 +0000 Subject: [PATCH] Update Readme --- Readme | 217 ++++++++++++++++++++++++++++++++++++--------------------- 1 file changed, 137 insertions(+), 80 deletions(-) diff --git a/Readme b/Readme index 64ebf49..cf0e923 100644 --- a/Readme +++ b/Readme @@ -1,123 +1,180 @@ -# ArabicNLPResources +# Awesome Arabic NLP -**الدليل المجتمعي لأدوات وموارد معالجة اللغة العربية (Arabic NLP)** +> قائمة منسقة لأفضل **الأدوات والمكتبات والنماذج ومجموعات البيانات** في مجال +> **معالجة اللغة العربية (Arabic Natural Language Processing)**. -[![GitHub stars](https://img.shields.io/github/stars/FadiKalash/ArabicNLPResources?style=social)]() -[![GitHub forks](https://img.shields.io/github/forks/FadiKalash/ArabicNLPResources?style=social)]() -[![License](https://img.shields.io/github/license/FadiKalash/ArabicNLPResources)]() - -مستودع يجمع **أفضل الأدوات والمكتبات والنماذج ومجموعات البيانات** في مجال **معالجة اللغة العربية (Arabic Natural Language Processing)**. - -الهدف من هذا المشروع هو أن يكون **مرجعاً مجتمعياً مفتوحاً** بحيث يمكن لأي شخص إضافة أدوات أو مصادر جديدة عبر **Pull Request**. +هذا المستودع يهدف إلى جمع أهم الموارد الخاصة بـ **Arabic NLP** في مكان واحد، وهو **مشروع مجتمعي** يمكن لأي شخص المساهمة فيه عبر Pull Request. --- -# 📚 Table of Contents +## Contents -* [Frameworks & Libraries](#frameworks--libraries) -* [Named Entity Recognition (NER)](#named-entity-recognition-ner) -* [Part-of-Speech Tagging (POS)](#part-of-speech-tagging-pos) -* [Datasets](#datasets) -* [Pre-trained Models](#pre-trained-models) -* [Research Papers](#research-papers) -* [How to Contribute](#how-to-contribute) -* [License](#license) +* Frameworks & Libraries +* Named Entity Recognition (NER) +* Part-of-Speech Tagging (POS) +* Datasets +* Pre-trained Models +* Research Papers +* Learning Resources +* Contributing --- -# 🛠 Frameworks & Libraries +# Frameworks & Libraries -| Tool | Description | Link | -| ----------- | ----------------------------------- | ---------------------------------------- | -| CAMeL Tools | مجموعة أدوات متقدمة لمعالجة العربية | https://github.com/CAMeL-Lab/camel_tools | -| Farasa | مكتبة قوية للتحليل الصرفي والتجزئة | https://farasa.qcri.org | -| PyArabic | مكتبة للتعامل مع النصوص العربية | https://github.com/linuxscout/pyarabic | -| AraNLP | أدوات متعددة لمعالجة العربية | https://github.com/linuxscout/aranlp | +### Python + +* **CAMeL Tools** + https://github.com/CAMeL-Lab/camel_tools + Toolkit متقدم لمعالجة اللغة العربية (tokenization, morphology, NER, POS) + +* **PyArabic** + https://github.com/linuxscout/pyarabic + مكتبة للتعامل مع النصوص العربية + +* **AraNLP** + https://github.com/linuxscout/aranlp + أدوات متعددة لمعالجة اللغة العربية + +* **Tashaphyne** + https://github.com/linuxscout/tashaphyne + مكتبة للتجذير والتحليل الصرفي --- -# 🏷 Named Entity Recognition (NER) +# Named Entity Recognition (NER) -أدوات ونماذج لاستخراج الكيانات الاسمية مثل: +التعرف على الكيانات الاسمية مثل: -* الأشخاص -* المواقع -* المؤسسات -* التواريخ +* Person +* Location +* Organization +* Date -| Tool / Model | Description | Link | -| ------------------- | ----------------------------------- | ---------------------------------------- | -| CAMeL Tools NER | نظام NER للعربية ضمن CAMeL Tools | https://github.com/CAMeL-Lab/camel_tools | -| AraBERT NER | نموذج NER مبني على AraBERT | https://huggingface.co/aubmindlab | -| Stanford Arabic NER | دعم NER للعربية في Stanford CoreNLP | https://stanfordnlp.github.io/CoreNLP/ | -| WikiANN Arabic | Dataset متعددة اللغات للـ NER | https://huggingface.co/datasets/wikiann | +### Tools + +* **CAMeL Tools NER** + https://github.com/CAMeL-Lab/camel_tools + +* **Stanford Arabic NER** + https://stanfordnlp.github.io/CoreNLP/ + +### Datasets + +* **WikiANN Arabic** + https://huggingface.co/datasets/wikiann + +* **ARB-NER Dataset** + https://alt.qcri.org/resources/arb-ner/ --- -# 🏷 Part-of-Speech Tagging (POS) +# Part-of-Speech Tagging (POS) -أدوات لتحديد نوع الكلمة داخل الجملة مثل: +تحديد نوع الكلمة داخل الجملة. -* اسم (NOUN) -* فعل (VERB) -* صفة (ADJ) -* ظرف (ADV) +Examples: -| Tool | Description | Link | -| ------------------- | ------------------------------ | ---------------------------------------- | -| CAMeL Tools POS | محلل نحوي وصرفي للعربية | https://github.com/CAMeL-Lab/camel_tools | -| Farasa POS | نظام سريع لتصنيف الكلمات | https://farasa.qcri.org | -| MADAMIRA | نظام شامل للتحليل الصرفي و POS | https://github.com/ColumbiaNLP/madamira | -| Stanford POS Tagger | نموذج POS ضمن Stanford NLP | https://stanfordnlp.github.io/CoreNLP/ | +* NOUN +* VERB +* ADJ +* ADV +* PRON + +### Tools + +* **CAMeL Tools POS Tagger** + https://github.com/CAMeL-Lab/camel_tools + +* **Farasa POS Tagger** + https://farasa.qcri.org/ + +* **MADAMIRA** + https://github.com/ColumbiaNLP/madamira + +* **Stanford POS Tagger** + https://stanfordnlp.github.io/CoreNLP/ + +### Datasets + +* **UD Arabic Treebank** + https://universaldependencies.org/ --- -# 📊 Datasets +# Datasets -| Dataset | Description | Link | -| --------------------- | ------------------------------- | ----------------------------------------------- | -| Arabic Poetry Dataset | مجموعة كبيرة من الشعر العربي | https://github.com/linuxscout/arabicpoetry | -| SANAD | Dataset أخبار عربية مصنفة | https://data.mendeley.com/datasets/57zpx667y9 | -| ArSAS | Dataset تحليل المشاعر للتغريدات | https://homepages.inf.ed.ac.uk/wmagdy/ArSAS.htm | -| Arabic-SQuAD | Dataset للأسئلة والأجوبة | https://github.com/ppaudel/arabic-squad | +* **SANAD Dataset** + https://data.mendeley.com/datasets/57zpx667y9 + +* **Arabic Poetry Dataset** + https://github.com/linuxscout/arabicpoetry + +* **ArSAS Sentiment Dataset** + https://homepages.inf.ed.ac.uk/wmagdy/ArSAS.htm + +* **Arabic SQuAD** + https://github.com/ppaudel/arabic-squad --- -# 🤖 Pre-trained Models +# Pre-trained Models -| Model | Description | Link | -| ---------- | ------------------------------ | --------------------------------------------------- | -| AraBERT | نموذج BERT مدرب للعربية | https://huggingface.co/aubmindlab/bert-base-arabert | -| AraGPT2 | نموذج GPT-2 لتوليد النص العربي | https://huggingface.co/aubmindlab/aragpt2-base | -| AraELECTRA | نموذج ELECTRA للعربية | https://huggingface.co/aubmindlab/araelectra-base | +* **AraBERT** + https://huggingface.co/aubmindlab/bert-base-arabert + +* **AraGPT2** + https://huggingface.co/aubmindlab/aragpt2-base + +* **AraELECTRA** + https://huggingface.co/aubmindlab/araelectra-base + +* **CAMeL BERT** + https://huggingface.co/CAMeL-Lab --- -# 📄 Research Papers +# Research Papers -| Paper | Year | Link | -| -------------------------------------------------- | ---- | ---------------------------------------- | -| AraBERT: Transformer-based Model for Arabic | 2020 | https://arxiv.org/abs/2003.00104 | -| CAMeL Tools: An Open Source Toolkit for Arabic NLP | 2020 | https://aclanthology.org/2020.lrec-1.868 | -| Farasa: A Fast and Accurate Arabic NLP Toolkit | 2016 | https://aclanthology.org/L16-1170 | +* AraBERT: Transformer-based Model for Arabic NLP + https://arxiv.org/abs/2003.00104 + +* CAMeL Tools: An Open Source Toolkit for Arabic NLP + https://aclanthology.org/2020.lrec-1.868 + +* Farasa: A Fast and Accurate Arabic NLP Toolkit + https://aclanthology.org/L16-1170 --- -# 🤝 How to Contribute +# Learning Resources -المشروع **مفتوح للمجتمع** ونرحب بأي إضافة. +* Natural Language Processing for Arabic (Book) -### خطوات المساهمة +* Arabic Computational Linguistics -1. اعمل **Fork** للمستودع -2. أضف المصدر الجديد في القسم المناسب -3. حافظ على نفس تنسيق الجداول -4. افتح **Pull Request** +* NLP with Python -### مثال على إضافة مصدر +--- + +# Contributing + +المشروع مفتوح للمجتمع ونرحب بإضافة أدوات أو مصادر جديدة. + +### Steps + +1. Fork the repository +2. Add your resource +3. Follow the existing format +4. Submit a Pull Request + +Example: -```markdown -| Tool | Description | Link | -|------|-------------|------| -| Example NLP Tool | Arabic NLP library | https://github.com/example | ``` +- **Tool Name** + https://github.com/example/project + Short description +``` + +--- +