Update Readme
هذا الالتزام موجود في:
233
Readme
233
Readme
@@ -1,186 +1,129 @@
|
|||||||
# ArabicNLPResources: الدليل الشامل لأدوات معالجة اللغة العربية (Arabic NLP)
|
# ArabicNLPResources
|
||||||
|
|
||||||

|
**الدليل المجتمعي لأدوات وموارد معالجة اللغة العربية (Arabic NLP)**
|
||||||

|
|
||||||

|
|
||||||

|
|
||||||
|
|
||||||
مرحباً بكم في **ArabicNLPResources**، مجموعة حية من **أحدث الأطر والمكتبات والمشاريع والمصادر** في مجال **معالجة اللغة العربية باستخدام تقنيات التعلم الآلي واللغويات الحاسوبية (Arabic NLP)**. هذا مشروع **مجتمعي** يهدف إلى فهرسة النمو السريع لأدوات ومشاريع معالجة اللغة العربية التي تدفع حدود هذا المجال.
|
[]()
|
||||||
|
[]()
|
||||||
|
[]()
|
||||||
|
|
||||||
كل يوم، نشهد ظهور أدوات ومكتبات جديدة، وأصبح اختيار الأداة المناسبة أشبه بالفن أكثر من كونه علماً. هل المكتبة التي تعلمتها قبل ثلاثة أشهر لا تزال مناسبة؟ أم كان مجرد ضجة إعلامية تعيد طرح مفاهيم قديمة بشكل جديد؟ **ArabicNLPResources موجود لمساعدتك على مواكبة هذه التغييرات**، وتوفير منصة لأحدث الابتكارات في عالم معالجة اللغة العربية.
|
مستودع يجمع **أفضل الأدوات والمكتبات والنماذج ومجموعات البيانات** في مجال **معالجة اللغة العربية (Arabic Natural Language Processing)**.
|
||||||
|
|
||||||
|
الهدف من هذا المشروع هو أن يكون **مرجعاً مجتمعياً مفتوحاً** بحيث يمكن لأي شخص إضافة أدوات أو مصادر جديدة عبر **Pull Request**.
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## 🤝 كيف تساهم؟
|
# 📚 Table of Contents
|
||||||
|
|
||||||
هذا مشروع مجتمعي، و**نرحب بمساهمات الجميع**! إذا كنت ترغب في إضافة إطار عمل أو مكتبة أو مشروع أو مصدر جديد، يرجى الاطلاع على [إرشادات المساهمة](CONTRIBUTING.md) لمعرفة تفاصيل كيفية البدء.
|
* [Frameworks & Libraries](#frameworks--libraries)
|
||||||
|
* [Named Entity Recognition (NER)](#named-entity-recognition-ner)
|
||||||
|
* [Part-of-Speech Tagging (POS)](#part-of-speech-tagging-pos)
|
||||||
|
* [Datasets](#datasets)
|
||||||
|
* [Pre-trained Models](#pre-trained-models)
|
||||||
|
* [Research Papers](#research-papers)
|
||||||
|
* [How to Contribute](#how-to-contribute)
|
||||||
|
* [License](#license)
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## 📚 الفهرس
|
# 🛠 Frameworks & Libraries
|
||||||
|
|
||||||
- [ArabicNLPResources: الدليل الشامل لأدوات معالجة اللغة العربية (Arabic NLP)](#arabicnlpresources-الدليل-الشامل-لأدوات-معالجة-اللغة-العربية-arabic-nlp)
|
| Tool | Description | Link |
|
||||||
- [🤝 كيف تساهم؟](#-كيف-تساهم)
|
| ----------- | ----------------------------------- | ---------------------------------------- |
|
||||||
- [📚 الفهرس](#-الفهرس)
|
| CAMeL Tools | مجموعة أدوات متقدمة لمعالجة العربية | https://github.com/CAMeL-Lab/camel_tools |
|
||||||
- [🛠️ أطر العمل والمكتبات (Frameworks & Libraries)](#️-أطر-العمل-والمكتبات-frameworks--libraries)
|
| Farasa | مكتبة قوية للتحليل الصرفي والتجزئة | https://farasa.qcri.org |
|
||||||
- [بايثون (Python)](#بايثون-python)
|
| PyArabic | مكتبة للتعامل مع النصوص العربية | https://github.com/linuxscout/pyarabic |
|
||||||
- [جافا سكريبت (JavaScript)](#جافا-سكريبت-javascript)
|
| AraNLP | أدوات متعددة لمعالجة العربية | https://github.com/linuxscout/aranlp |
|
||||||
- [جافا (Java)](#جافا-java)
|
|
||||||
- [لغات أخرى (Other Languages)](#لغات-أخرى-other-languages)
|
|
||||||
- [📊 مجموعات البيانات (Datasets)](#-مجموعات-البيانات-datasets)
|
|
||||||
- [🤖 النماذج المدربة مسبقاً (Pre-trained Models)](#-النماذج-المدربة-مسبقاً-pre-trained-models)
|
|
||||||
- [📝 الأوراق البحثية (Research Papers)](#-الأوراق-البحثية-research-papers)
|
|
||||||
- [📖 الكتب والمراجع (Books & References)](#-الكتب-والمراجع-books--references)
|
|
||||||
- [🎓 الدورات التعليمية (Courses)](#-الدورات-التعليمية-courses)
|
|
||||||
- [🏆 لوحات مقارنة الأداء (Leaderboards)](#-لوحات-مقارنة-الأداء-leaderboards)
|
|
||||||
- [🔗 مدونات وقنوات مهمة (Blogs & Channels)](#-مدونات-وقنوات-مهمة-blogs--channels)
|
|
||||||
- [📜 الترخيص (License)](#-الترخيص-license)
|
|
||||||
- [💬 انضم للنقاش (Join the Conversation)](#-انضم-للنقاش-join-the-conversation)
|
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## 🛠️ أطر العمل والمكتبات (Frameworks & Libraries)
|
# 🏷 Named Entity Recognition (NER)
|
||||||
|
|
||||||
### بايثون (Python)
|
أدوات ونماذج لاستخراج الكيانات الاسمية مثل:
|
||||||
|
|
||||||
| الاسم | الوصف | الموقع | GitHub | النجوم | آخر نشاط |
|
* الأشخاص
|
||||||
|:---|:---|:---:|:---:|:---:|:---:|
|
* المواقع
|
||||||
| **CAMeL Tools** | مجموعة أدوات شاملة من جامعة نيويورك أبوظبي للتحليل الصرفي والنحوي | [Website](https://camel.abudhabi.nyu.edu/camel-tools/) | [GitHub](https://github.com/CAMeL-Lab/camel_tools) | [](https://github.com/CAMeL-Lab/camel_tools) |  |
|
* المؤسسات
|
||||||
| **Farasa** | مكتبة قوية للتحليل الصرفي والتشكيل والترجمة | [Website](https://farasa.qcri.org/) | [GitHub](https://github.com/qcri/farasa) | [](https://github.com/qcri/farasa) |  |
|
* التواريخ
|
||||||
| **Qutuf** | مكتبة للتعامل مع الجذور والأوزان الصرفية | [Website](https://qutuf.readthedocs.io/) | [GitHub](https://github.com/salsowelim/qutuf) | [](https://github.com/salsowelim/qutuf) |  |
|
|
||||||
| **AraNLP** | مجموعة أدوات لمعالجة اللغة العربية | - | [GitHub](https://github.com/linuxscout/aranlp) | [](https://github.com/linuxscout/aranlp) |  |
|
|
||||||
| **Tashaphyne** | مكتبة للتشكيل والتحليل الصرفي | - | [GitHub](https://github.com/linuxscout/tashaphyne) | [](https://github.com/linuxscout/tashaphyne) |  |
|
|
||||||
| **PyArabic** | مكتبة للتعامل مع الخصائص الأساسية للغة العربية | - | [GitHub](https://github.com/linuxscout/pyarabic) | [](https://github.com/linuxscout/pyarabic) |  |
|
|
||||||
|
|
||||||
### جافا سكريبت (JavaScript)
|
| Tool / Model | Description | Link |
|
||||||
|
| ------------------- | ----------------------------------- | ---------------------------------------- |
|
||||||
| الاسم | الوصف | الموقع | GitHub | النجوم | آخر نشاط |
|
| CAMeL Tools NER | نظام NER للعربية ضمن CAMeL Tools | https://github.com/CAMeL-Lab/camel_tools |
|
||||||
|:---|:---|:---:|:---:|:---:|:---:|
|
| AraBERT NER | نموذج NER مبني على AraBERT | https://huggingface.co/aubmindlab |
|
||||||
| **Aratools** | محلل صرفي عربي (Arabic Morphological Analyzer) | [Website](https://aratools.com/) | [GitHub](https://github.com/amaarora/aratools) | [](https://github.com/amaarora/aratools) |  |
|
| Stanford Arabic NER | دعم NER للعربية في Stanford CoreNLP | https://stanfordnlp.github.io/CoreNLP/ |
|
||||||
| **node-arabic-enc** | للتعامل مع ترميز الأحرف العربية | - | [GitHub](https://github.com/arabbureau/node-arabic-enc) | [](https://github.com/arabbureau/node-arabic-enc) |  |
|
| WikiANN Arabic | Dataset متعددة اللغات للـ NER | https://huggingface.co/datasets/wikiann |
|
||||||
| **Arabic-Utils** | دوال مساعدة للتعامل مع النصوص العربية | - | [GitHub](https://github.com/ghalambos/arabic-utils) | [](https://github.com/ghalambos/arabic-utils) |  |
|
|
||||||
|
|
||||||
### جافا (Java)
|
|
||||||
|
|
||||||
| الاسم | الوصف | الموقع | GitHub | النجوم | آخر نشاط |
|
|
||||||
|:---|:---|:---:|:---:|:---:|:---:|
|
|
||||||
| **Lucene Arabic Analyzer** | محلل عربي لمحرك البحث Lucene | [Website](https://lucene.apache.org/) | [GitHub](https://github.com/apache/lucene) | [](https://github.com/apache/lucene) |  |
|
|
||||||
| **Stanford CoreNLP Arabic** | الدعم العربي من Stanford NLP | [Website](https://stanfordnlp.github.io/CoreNLP/) | [GitHub](https://github.com/stanfordnlp/CoreNLP) | [](https://github.com/stanfordnlp/CoreNLP) |  |
|
|
||||||
|
|
||||||
### لغات أخرى (Other Languages)
|
|
||||||
|
|
||||||
| اللغة | الاسم | الوصف | GitHub |
|
|
||||||
|:---:|:---|:---|:---:|
|
|
||||||
| **C++** | **Sarf** | مكتبة صرف عربي مفتوحة المصدر | [](https://github.com/otabuzzman/sarf) |
|
|
||||||
| **R** | **arabicStemR** | أدوات تجذيع للغة العربية في R | [](https://github.com/arabicStemR/arabicStemR) |
|
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## 📊 مجموعات البيانات (Datasets)
|
# 🏷 Part-of-Speech Tagging (POS)
|
||||||
|
|
||||||
| اسم المجموعة | الوصف | النوع | الحجم | الرابط | الترخيص |
|
أدوات لتحديد نوع الكلمة داخل الجملة مثل:
|
||||||
|:---|:---|:---|:---:|:---:|:---:|
|
|
||||||
| **OSIAN** | مجموعة ضخمة للنصوص العربية الفصحى (الكتب الستة وغيرها) | نصوص دينية/تراثية | ~3 مليار كلمة | [Website](https://sourceforge.net/projects/osian/) | CC BY-SA |
|
* اسم (NOUN)
|
||||||
| **ArabicPoetry** | أكثر من 1.8 مليون بيت شعري | شعر | 1.8M بيت | [GitHub](https://github.com/linuxscout/arabicpoetry) | GPL |
|
* فعل (VERB)
|
||||||
| **SANAD** | مقالات إخبارية عربية مصنفة من 3 صحف كبرى | أخبار | 200K مقال | [Website](https://data.mendeley.com/datasets/57zpx667y9/2) | CC BY |
|
* صفة (ADJ)
|
||||||
| **ArSAS** | تغريدات عربية مصنفة حسب المشاعر | مشاعر (Sentiment) | 21K تغريدة | [Website](https://homepages.inf.ed.ac.uk/wmagdy/ArSAS.htm) | CC BY-NC |
|
* ظرف (ADV)
|
||||||
| **WikiNews** | مقالات WikiNews العربية | نصوص إخبارية | 50K مقال | [HuggingFace](https://huggingface.co/datasets/wikinews) | CC BY-SA |
|
|
||||||
| **Quran** | النص القرآني مع التشكيل | نصوص دينية | 77K آية | [GitHub](https://github.com/linuxscout/quran) | GPL |
|
| Tool | Description | Link |
|
||||||
| **Arabic-SQuAD** | نسخة عربية من SQuAD للاستفسارات | QA | 50K سؤال | [GitHub](https://github.com/ppaudel/arabic-squad) | CC BY-SA |
|
| ------------------- | ------------------------------ | ---------------------------------------- |
|
||||||
|
| CAMeL Tools POS | محلل نحوي وصرفي للعربية | https://github.com/CAMeL-Lab/camel_tools |
|
||||||
|
| Farasa POS | نظام سريع لتصنيف الكلمات | https://farasa.qcri.org |
|
||||||
|
| MADAMIRA | نظام شامل للتحليل الصرفي و POS | https://github.com/ColumbiaNLP/madamira |
|
||||||
|
| Stanford POS Tagger | نموذج POS ضمن Stanford NLP | https://stanfordnlp.github.io/CoreNLP/ |
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## 🤖 النماذج المدربة مسبقاً (Pre-trained Models)
|
# 📊 Datasets
|
||||||
|
|
||||||
| النموذج | الوصف | المؤسسة | الرابط | الترخيص |
|
| Dataset | Description | Link |
|
||||||
|:---|:---|:---|:---:|:---:|
|
| --------------------- | ------------------------------- | ----------------------------------------------- |
|
||||||
| **AraBERT** | نموذج BERT مدرب خصيصاً للغة العربية | AUB-MIND Lab | [](https://huggingface.co/aubmindlab/bert-base-arabert) | Apache 2.0 |
|
| Arabic Poetry Dataset | مجموعة كبيرة من الشعر العربي | https://github.com/linuxscout/arabicpoetry |
|
||||||
| **Arabic BERT** | نموذج BERT متعدد الأحجام للعربية | UBC-NLP | [](https://huggingface.co/bert-base-arabic) | MIT |
|
| SANAD | Dataset أخبار عربية مصنفة | https://data.mendeley.com/datasets/57zpx667y9 |
|
||||||
| **QARiB** | نموذج BERT مدرب على تغريدات عربية | QCRI | [](https://huggingface.co/qcri) | MIT |
|
| ArSAS | Dataset تحليل المشاعر للتغريدات | https://homepages.inf.ed.ac.uk/wmagdy/ArSAS.htm |
|
||||||
| **AraGPT2** | نموذج GPT-2 لتوليد النصوص العربية | AUB-MIND Lab | [](https://huggingface.co/aubmindlab/aragpt2-base) | Apache 2.0 |
|
| Arabic-SQuAD | Dataset للأسئلة والأجوبة | https://github.com/ppaudel/arabic-squad |
|
||||||
| **AraELECTRA** | نموذج ELECTRA للعربية | AUB-MIND Lab | [](https://huggingface.co/aubmindlab/araelectra-base) | Apache 2.0 |
|
|
||||||
| **CAMeL BERT** | نماذج BERT متنوعة للعربية | CAMeL Lab | [](https://huggingface.co/CAMeL-Lab) | MIT |
|
|
||||||
| **JASMINE** | نماذج لغة عربية كبيرة | MBZUAI | [](https://huggingface.co/MBZUAI) | CC BY-NC |
|
|
||||||
| **AceGPT** | نموذج LLaMA محسّن للعربية | - | [](https://huggingface.co/FreedomIntelligence/AceGPT-13B) | CC BY-NC |
|
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## 📝 الأوراق البحثية (Research Papers)
|
# 🤖 Pre-trained Models
|
||||||
|
|
||||||
| العنوان | المؤلفون | السنة | المؤتمر/المجلة | الرابط |
|
| Model | Description | Link |
|
||||||
|:---|:---|:---:|:---|:---:|
|
| ---------- | ------------------------------ | --------------------------------------------------- |
|
||||||
| **A Comprehensive Review of Arabic NLP** | مجموعة باحثين | 2023 | ACL | [](رابط) |
|
| AraBERT | نموذج BERT مدرب للعربية | https://huggingface.co/aubmindlab/bert-base-arabert |
|
||||||
| **Pre-Trained Language Models for Arabic** | مجموعة باحثين | 2022 | EMNLP | [](رابط) |
|
| AraGPT2 | نموذج GPT-2 لتوليد النص العربي | https://huggingface.co/aubmindlab/aragpt2-base |
|
||||||
| **AraBERT: Transformer-based Model for Arabic** | Antoun et al. | 2020 | ACL | [](رابط) |
|
| AraELECTRA | نموذج ELECTRA للعربية | https://huggingface.co/aubmindlab/araelectra-base |
|
||||||
| **CAMeL Tools: An Open Source Toolkit** | Obeid et al. | 2020 | LREC | [](رابط) |
|
|
||||||
| **Farasa: A Fast and Accurate Arabic Processor** | Abdelali et al. | 2016 | LREC | [](رابط) |
|
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## 📖 الكتب والمراجع (Books & References)
|
# 📄 Research Papers
|
||||||
|
|
||||||
| العنوان | المؤلف | السنة | الناشر | الرابط |
|
| Paper | Year | Link |
|
||||||
|:---|:---|:---:|:---|:---:|
|
| -------------------------------------------------- | ---- | ---------------------------------------- |
|
||||||
| **معالجة اللغات الطبيعية** | د. عبدالله الفيفي | 2022 | مكتبة الملك فهد | [](رابط) |
|
| AraBERT: Transformer-based Model for Arabic | 2020 | https://arxiv.org/abs/2003.00104 |
|
||||||
| **Arabic Computational Linguistics** | Dr. Ali Farghaly | 2019 | CSLI Publications | [](رابط) |
|
| CAMeL Tools: An Open Source Toolkit for Arabic NLP | 2020 | https://aclanthology.org/2020.lrec-1.868 |
|
||||||
| **Handbook of Arabic Computational Linguistics** | Everhard Ditters | 2018 | Routledge | [](رابط) |
|
| Farasa: A Fast and Accurate Arabic NLP Toolkit | 2016 | https://aclanthology.org/L16-1170 |
|
||||||
| **Natural Language Processing for Arabic** | Mohamed El-Haj | 2021 | Springer | [](رابط) |
|
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## 🎓 الدورات التعليمية (Courses)
|
# 🤝 How to Contribute
|
||||||
|
|
||||||
| الدورة | المنصة | المستوى | اللغة | الرابط |
|
المشروع **مفتوح للمجتمع** ونرحب بأي إضافة.
|
||||||
|:---|:---|:---:|:---:|:---:|
|
|
||||||
| **معالجة اللغات الطبيعية (NLP) للمبتدئين** | يوديمي | مبتدئ | عربي | [](رابط) |
|
### خطوات المساهمة
|
||||||
| **Natural Language Processing with Python and Arabic** | Coursera | متوسط | إنجليزي | [](رابط) |
|
|
||||||
| **Arabic for beginners (Linguistics perspective)** | EdX | مبتدئ | إنجليزي | [](رابط) |
|
1. اعمل **Fork** للمستودع
|
||||||
| **Advanced Arabic NLP** | جامعة نيويورك أبوظبي | متقدم | إنجليزي | [](رابط) |
|
2. أضف المصدر الجديد في القسم المناسب
|
||||||
|
3. حافظ على نفس تنسيق الجداول
|
||||||
|
4. افتح **Pull Request**
|
||||||
|
|
||||||
|
### مثال على إضافة مصدر
|
||||||
|
|
||||||
|
```markdown
|
||||||
|
| Tool | Description | Link |
|
||||||
|
|------|-------------|------|
|
||||||
|
| Example NLP Tool | Arabic NLP library | https://github.com/example |
|
||||||
|
```
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## 🏆 لوحات مقارنة الأداء (Leaderboards)
|
# 📜 License
|
||||||
|
|
||||||
| الاسم | الوصف | الرابط |
|
هذا المشروع مرخص تحت **MIT License**.
|
||||||
|:---|:---|:---:|
|
|
||||||
| **HuggingFace/mteb** | مقارنة أداء نماذج التضمين (Embeddings) | [](https://huggingface.co/spaces/mteb/leaderboard) |
|
|
||||||
| **Arabic NLU Leaderboard** | مقارنة أداء نماذج فهم اللغة العربية | [](https://arcd-nlu.com/leaderboard) |
|
|
||||||
| **AraBench** | منصة شاملة لمقارنة النماذج العربية | [](https://arabench.ai/) |
|
|
||||||
| **OpenArabic LLM Leaderboard** | مقارنة النماذج اللغوية الكبيرة للعربية | [](https://huggingface.co/spaces/Ogma/OpenArabic-LLM-Leaderboard) |
|
|
||||||
|
|
||||||
---
|
|
||||||
|
|
||||||
## 🔗 مدونات وقنوات مهمة (Blogs & Channels)
|
|
||||||
|
|
||||||
| الاسم | الوصف | المنصة | الرابط |
|
|
||||||
|:---|:---|:---:|:---:|
|
|
||||||
| **CAMeL Lab Blog** | أبحاث وأخبار عن معالجة العربية | مدونة | [](رابط) |
|
|
||||||
| **QCRI Arabic NLP** | أبحاث معهد قطر للأبحاث | مدونة | [](رابط) |
|
|
||||||
| **الذكاء الاصطناعي بالعربية** | قناة يوتيوب متخصصة | يوتيوب | [](رابط) |
|
|
||||||
| **NLP Arabic Community** | مجموعة فيسبوك للنقاشات | فيسبوك | [](رابط) |
|
|
||||||
|
|
||||||
---
|
|
||||||
|
|
||||||
> إذا كنت تبحث عن مصادر أكثر تخصصاً في مجال معالجة اللغة العربية، تحقق من المستودع الممتاز لـ [Arabic-NLP](https://github.com/arabic-nlp/). يركز هذا المستودع على الأدوات والطرق الأكثر رسوخاً والتي اكتسبت زخماً في المجتمع.
|
|
||||||
|
|
||||||
---
|
|
||||||
|
|
||||||
## 📜 الترخيص (License)
|
|
||||||
|
|
||||||
هذا المشروع مرخص تحت **MIT License**. راجع ملف [LICENSE](LICENSE) للتفاصيل.
|
|
||||||
|
|
||||||
---
|
|
||||||
|
|
||||||
## 💬 انضم للنقاش (Join the Conversation)
|
|
||||||
|
|
||||||
هذا المشروع جزء من مجتمع **المطورين العرب المهتمين بمجال NLP**. لديك ملاحظات أو اقتراحات؟ لا تتردد في فتح Issue أو بدء نقاش، أو الانضمام إلى المحادثة على **خادم Discord** أو **مجموعة Telegram**! نريد أن نجعل هذا المستودع مصدراً قيماً لكل من يستكشف مجال معالجة اللغة العربية، ومدخلاتك مهمة للغاية.
|
|
||||||
|
|
||||||
- **تويتر**: [@YourTwitterHandle](https://twitter.com/)
|
|
||||||
- **تليجرام**: [رابط المجموعة](https://t.me/)
|
|
||||||
- **Discord**: [رابط الخادم](https://discord.gg/)
|
|
||||||
|
|
||||||
---
|
|
||||||
|
|
||||||
**⭐ لا تنسى تدعمنا بنجمة إذا استفدت!**
|
|
||||||
|
|
||||||

|
|
||||||
|
|||||||
المرجع في مشكلة جديدة
حظر مستخدم