Update Readme
هذا الالتزام موجود في:
217
Readme
217
Readme
@@ -1,123 +1,180 @@
|
|||||||
# ArabicNLPResources
|
# Awesome Arabic NLP
|
||||||
|
|
||||||
**الدليل المجتمعي لأدوات وموارد معالجة اللغة العربية (Arabic NLP)**
|
> قائمة منسقة لأفضل **الأدوات والمكتبات والنماذج ومجموعات البيانات** في مجال
|
||||||
|
> **معالجة اللغة العربية (Arabic Natural Language Processing)**.
|
||||||
|
|
||||||
[]()
|
هذا المستودع يهدف إلى جمع أهم الموارد الخاصة بـ **Arabic NLP** في مكان واحد، وهو **مشروع مجتمعي** يمكن لأي شخص المساهمة فيه عبر Pull Request.
|
||||||
[]()
|
|
||||||
[]()
|
|
||||||
|
|
||||||
مستودع يجمع **أفضل الأدوات والمكتبات والنماذج ومجموعات البيانات** في مجال **معالجة اللغة العربية (Arabic Natural Language Processing)**.
|
|
||||||
|
|
||||||
الهدف من هذا المشروع هو أن يكون **مرجعاً مجتمعياً مفتوحاً** بحيث يمكن لأي شخص إضافة أدوات أو مصادر جديدة عبر **Pull Request**.
|
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
# 📚 Table of Contents
|
## Contents
|
||||||
|
|
||||||
* [Frameworks & Libraries](#frameworks--libraries)
|
* Frameworks & Libraries
|
||||||
* [Named Entity Recognition (NER)](#named-entity-recognition-ner)
|
* Named Entity Recognition (NER)
|
||||||
* [Part-of-Speech Tagging (POS)](#part-of-speech-tagging-pos)
|
* Part-of-Speech Tagging (POS)
|
||||||
* [Datasets](#datasets)
|
* Datasets
|
||||||
* [Pre-trained Models](#pre-trained-models)
|
* Pre-trained Models
|
||||||
* [Research Papers](#research-papers)
|
* Research Papers
|
||||||
* [How to Contribute](#how-to-contribute)
|
* Learning Resources
|
||||||
* [License](#license)
|
* Contributing
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
# 🛠 Frameworks & Libraries
|
# Frameworks & Libraries
|
||||||
|
|
||||||
| Tool | Description | Link |
|
### Python
|
||||||
| ----------- | ----------------------------------- | ---------------------------------------- |
|
|
||||||
| CAMeL Tools | مجموعة أدوات متقدمة لمعالجة العربية | https://github.com/CAMeL-Lab/camel_tools |
|
* **CAMeL Tools**
|
||||||
| Farasa | مكتبة قوية للتحليل الصرفي والتجزئة | https://farasa.qcri.org |
|
https://github.com/CAMeL-Lab/camel_tools
|
||||||
| PyArabic | مكتبة للتعامل مع النصوص العربية | https://github.com/linuxscout/pyarabic |
|
Toolkit متقدم لمعالجة اللغة العربية (tokenization, morphology, NER, POS)
|
||||||
| AraNLP | أدوات متعددة لمعالجة العربية | https://github.com/linuxscout/aranlp |
|
|
||||||
|
* **PyArabic**
|
||||||
|
https://github.com/linuxscout/pyarabic
|
||||||
|
مكتبة للتعامل مع النصوص العربية
|
||||||
|
|
||||||
|
* **AraNLP**
|
||||||
|
https://github.com/linuxscout/aranlp
|
||||||
|
أدوات متعددة لمعالجة اللغة العربية
|
||||||
|
|
||||||
|
* **Tashaphyne**
|
||||||
|
https://github.com/linuxscout/tashaphyne
|
||||||
|
مكتبة للتجذير والتحليل الصرفي
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
# 🏷 Named Entity Recognition (NER)
|
# Named Entity Recognition (NER)
|
||||||
|
|
||||||
أدوات ونماذج لاستخراج الكيانات الاسمية مثل:
|
التعرف على الكيانات الاسمية مثل:
|
||||||
|
|
||||||
* الأشخاص
|
* Person
|
||||||
* المواقع
|
* Location
|
||||||
* المؤسسات
|
* Organization
|
||||||
* التواريخ
|
* Date
|
||||||
|
|
||||||
| Tool / Model | Description | Link |
|
### Tools
|
||||||
| ------------------- | ----------------------------------- | ---------------------------------------- |
|
|
||||||
| CAMeL Tools NER | نظام NER للعربية ضمن CAMeL Tools | https://github.com/CAMeL-Lab/camel_tools |
|
* **CAMeL Tools NER**
|
||||||
| AraBERT NER | نموذج NER مبني على AraBERT | https://huggingface.co/aubmindlab |
|
https://github.com/CAMeL-Lab/camel_tools
|
||||||
| Stanford Arabic NER | دعم NER للعربية في Stanford CoreNLP | https://stanfordnlp.github.io/CoreNLP/ |
|
|
||||||
| WikiANN Arabic | Dataset متعددة اللغات للـ NER | https://huggingface.co/datasets/wikiann |
|
* **Stanford Arabic NER**
|
||||||
|
https://stanfordnlp.github.io/CoreNLP/
|
||||||
|
|
||||||
|
### Datasets
|
||||||
|
|
||||||
|
* **WikiANN Arabic**
|
||||||
|
https://huggingface.co/datasets/wikiann
|
||||||
|
|
||||||
|
* **ARB-NER Dataset**
|
||||||
|
https://alt.qcri.org/resources/arb-ner/
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
# 🏷 Part-of-Speech Tagging (POS)
|
# Part-of-Speech Tagging (POS)
|
||||||
|
|
||||||
أدوات لتحديد نوع الكلمة داخل الجملة مثل:
|
تحديد نوع الكلمة داخل الجملة.
|
||||||
|
|
||||||
* اسم (NOUN)
|
Examples:
|
||||||
* فعل (VERB)
|
|
||||||
* صفة (ADJ)
|
|
||||||
* ظرف (ADV)
|
|
||||||
|
|
||||||
| Tool | Description | Link |
|
* NOUN
|
||||||
| ------------------- | ------------------------------ | ---------------------------------------- |
|
* VERB
|
||||||
| CAMeL Tools POS | محلل نحوي وصرفي للعربية | https://github.com/CAMeL-Lab/camel_tools |
|
* ADJ
|
||||||
| Farasa POS | نظام سريع لتصنيف الكلمات | https://farasa.qcri.org |
|
* ADV
|
||||||
| MADAMIRA | نظام شامل للتحليل الصرفي و POS | https://github.com/ColumbiaNLP/madamira |
|
* PRON
|
||||||
| Stanford POS Tagger | نموذج POS ضمن Stanford NLP | https://stanfordnlp.github.io/CoreNLP/ |
|
|
||||||
|
### Tools
|
||||||
|
|
||||||
|
* **CAMeL Tools POS Tagger**
|
||||||
|
https://github.com/CAMeL-Lab/camel_tools
|
||||||
|
|
||||||
|
* **Farasa POS Tagger**
|
||||||
|
https://farasa.qcri.org/
|
||||||
|
|
||||||
|
* **MADAMIRA**
|
||||||
|
https://github.com/ColumbiaNLP/madamira
|
||||||
|
|
||||||
|
* **Stanford POS Tagger**
|
||||||
|
https://stanfordnlp.github.io/CoreNLP/
|
||||||
|
|
||||||
|
### Datasets
|
||||||
|
|
||||||
|
* **UD Arabic Treebank**
|
||||||
|
https://universaldependencies.org/
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
# 📊 Datasets
|
# Datasets
|
||||||
|
|
||||||
| Dataset | Description | Link |
|
* **SANAD Dataset**
|
||||||
| --------------------- | ------------------------------- | ----------------------------------------------- |
|
https://data.mendeley.com/datasets/57zpx667y9
|
||||||
| Arabic Poetry Dataset | مجموعة كبيرة من الشعر العربي | https://github.com/linuxscout/arabicpoetry |
|
|
||||||
| SANAD | Dataset أخبار عربية مصنفة | https://data.mendeley.com/datasets/57zpx667y9 |
|
* **Arabic Poetry Dataset**
|
||||||
| ArSAS | Dataset تحليل المشاعر للتغريدات | https://homepages.inf.ed.ac.uk/wmagdy/ArSAS.htm |
|
https://github.com/linuxscout/arabicpoetry
|
||||||
| Arabic-SQuAD | Dataset للأسئلة والأجوبة | https://github.com/ppaudel/arabic-squad |
|
|
||||||
|
* **ArSAS Sentiment Dataset**
|
||||||
|
https://homepages.inf.ed.ac.uk/wmagdy/ArSAS.htm
|
||||||
|
|
||||||
|
* **Arabic SQuAD**
|
||||||
|
https://github.com/ppaudel/arabic-squad
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
# 🤖 Pre-trained Models
|
# Pre-trained Models
|
||||||
|
|
||||||
| Model | Description | Link |
|
* **AraBERT**
|
||||||
| ---------- | ------------------------------ | --------------------------------------------------- |
|
https://huggingface.co/aubmindlab/bert-base-arabert
|
||||||
| AraBERT | نموذج BERT مدرب للعربية | https://huggingface.co/aubmindlab/bert-base-arabert |
|
|
||||||
| AraGPT2 | نموذج GPT-2 لتوليد النص العربي | https://huggingface.co/aubmindlab/aragpt2-base |
|
* **AraGPT2**
|
||||||
| AraELECTRA | نموذج ELECTRA للعربية | https://huggingface.co/aubmindlab/araelectra-base |
|
https://huggingface.co/aubmindlab/aragpt2-base
|
||||||
|
|
||||||
|
* **AraELECTRA**
|
||||||
|
https://huggingface.co/aubmindlab/araelectra-base
|
||||||
|
|
||||||
|
* **CAMeL BERT**
|
||||||
|
https://huggingface.co/CAMeL-Lab
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
# 📄 Research Papers
|
# Research Papers
|
||||||
|
|
||||||
| Paper | Year | Link |
|
* AraBERT: Transformer-based Model for Arabic NLP
|
||||||
| -------------------------------------------------- | ---- | ---------------------------------------- |
|
https://arxiv.org/abs/2003.00104
|
||||||
| AraBERT: Transformer-based Model for Arabic | 2020 | https://arxiv.org/abs/2003.00104 |
|
|
||||||
| CAMeL Tools: An Open Source Toolkit for Arabic NLP | 2020 | https://aclanthology.org/2020.lrec-1.868 |
|
* CAMeL Tools: An Open Source Toolkit for Arabic NLP
|
||||||
| Farasa: A Fast and Accurate Arabic NLP Toolkit | 2016 | https://aclanthology.org/L16-1170 |
|
https://aclanthology.org/2020.lrec-1.868
|
||||||
|
|
||||||
|
* Farasa: A Fast and Accurate Arabic NLP Toolkit
|
||||||
|
https://aclanthology.org/L16-1170
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
# 🤝 How to Contribute
|
# Learning Resources
|
||||||
|
|
||||||
المشروع **مفتوح للمجتمع** ونرحب بأي إضافة.
|
* Natural Language Processing for Arabic (Book)
|
||||||
|
|
||||||
### خطوات المساهمة
|
* Arabic Computational Linguistics
|
||||||
|
|
||||||
1. اعمل **Fork** للمستودع
|
* NLP with Python
|
||||||
2. أضف المصدر الجديد في القسم المناسب
|
|
||||||
3. حافظ على نفس تنسيق الجداول
|
|
||||||
4. افتح **Pull Request**
|
|
||||||
|
|
||||||
### مثال على إضافة مصدر
|
---
|
||||||
|
|
||||||
|
# Contributing
|
||||||
|
|
||||||
|
المشروع مفتوح للمجتمع ونرحب بإضافة أدوات أو مصادر جديدة.
|
||||||
|
|
||||||
|
### Steps
|
||||||
|
|
||||||
|
1. Fork the repository
|
||||||
|
2. Add your resource
|
||||||
|
3. Follow the existing format
|
||||||
|
4. Submit a Pull Request
|
||||||
|
|
||||||
|
Example:
|
||||||
|
|
||||||
```markdown
|
|
||||||
| Tool | Description | Link |
|
|
||||||
|------|-------------|------|
|
|
||||||
| Example NLP Tool | Arabic NLP library | https://github.com/example |
|
|
||||||
```
|
```
|
||||||
|
- **Tool Name**
|
||||||
|
https://github.com/example/project
|
||||||
|
Short description
|
||||||
|
```
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
|||||||
المرجع في مشكلة جديدة
حظر مستخدم