# ArabicNLPResources **الدليل المجتمعي لأدوات وموارد معالجة اللغة العربية (Arabic NLP)** [![GitHub stars](https://img.shields.io/github/stars/FadiKalash/ArabicNLPResources?style=social)]() [![GitHub forks](https://img.shields.io/github/forks/FadiKalash/ArabicNLPResources?style=social)]() [![License](https://img.shields.io/github/license/FadiKalash/ArabicNLPResources)]() مستودع يجمع **أفضل الأدوات والمكتبات والنماذج ومجموعات البيانات** في مجال **معالجة اللغة العربية (Arabic Natural Language Processing)**. الهدف من هذا المشروع هو أن يكون **مرجعاً مجتمعياً مفتوحاً** بحيث يمكن لأي شخص إضافة أدوات أو مصادر جديدة عبر **Pull Request**. --- # 📚 Table of Contents * [Frameworks & Libraries](#frameworks--libraries) * [Named Entity Recognition (NER)](#named-entity-recognition-ner) * [Part-of-Speech Tagging (POS)](#part-of-speech-tagging-pos) * [Datasets](#datasets) * [Pre-trained Models](#pre-trained-models) * [Research Papers](#research-papers) * [How to Contribute](#how-to-contribute) * [License](#license) --- # 🛠 Frameworks & Libraries | Tool | Description | Link | | ----------- | ----------------------------------- | ---------------------------------------- | | CAMeL Tools | مجموعة أدوات متقدمة لمعالجة العربية | https://github.com/CAMeL-Lab/camel_tools | | Farasa | مكتبة قوية للتحليل الصرفي والتجزئة | https://farasa.qcri.org | | PyArabic | مكتبة للتعامل مع النصوص العربية | https://github.com/linuxscout/pyarabic | | AraNLP | أدوات متعددة لمعالجة العربية | https://github.com/linuxscout/aranlp | --- # 🏷 Named Entity Recognition (NER) أدوات ونماذج لاستخراج الكيانات الاسمية مثل: * الأشخاص * المواقع * المؤسسات * التواريخ | Tool / Model | Description | Link | | ------------------- | ----------------------------------- | ---------------------------------------- | | CAMeL Tools NER | نظام NER للعربية ضمن CAMeL Tools | https://github.com/CAMeL-Lab/camel_tools | | AraBERT NER | نموذج NER مبني على AraBERT | https://huggingface.co/aubmindlab | | Stanford Arabic NER | دعم NER للعربية في Stanford CoreNLP | https://stanfordnlp.github.io/CoreNLP/ | | WikiANN Arabic | Dataset متعددة اللغات للـ NER | https://huggingface.co/datasets/wikiann | --- # 🏷 Part-of-Speech Tagging (POS) أدوات لتحديد نوع الكلمة داخل الجملة مثل: * اسم (NOUN) * فعل (VERB) * صفة (ADJ) * ظرف (ADV) | Tool | Description | Link | | ------------------- | ------------------------------ | ---------------------------------------- | | CAMeL Tools POS | محلل نحوي وصرفي للعربية | https://github.com/CAMeL-Lab/camel_tools | | Farasa POS | نظام سريع لتصنيف الكلمات | https://farasa.qcri.org | | MADAMIRA | نظام شامل للتحليل الصرفي و POS | https://github.com/ColumbiaNLP/madamira | | Stanford POS Tagger | نموذج POS ضمن Stanford NLP | https://stanfordnlp.github.io/CoreNLP/ | --- # 📊 Datasets | Dataset | Description | Link | | --------------------- | ------------------------------- | ----------------------------------------------- | | Arabic Poetry Dataset | مجموعة كبيرة من الشعر العربي | https://github.com/linuxscout/arabicpoetry | | SANAD | Dataset أخبار عربية مصنفة | https://data.mendeley.com/datasets/57zpx667y9 | | ArSAS | Dataset تحليل المشاعر للتغريدات | https://homepages.inf.ed.ac.uk/wmagdy/ArSAS.htm | | Arabic-SQuAD | Dataset للأسئلة والأجوبة | https://github.com/ppaudel/arabic-squad | --- # 🤖 Pre-trained Models | Model | Description | Link | | ---------- | ------------------------------ | --------------------------------------------------- | | AraBERT | نموذج BERT مدرب للعربية | https://huggingface.co/aubmindlab/bert-base-arabert | | AraGPT2 | نموذج GPT-2 لتوليد النص العربي | https://huggingface.co/aubmindlab/aragpt2-base | | AraELECTRA | نموذج ELECTRA للعربية | https://huggingface.co/aubmindlab/araelectra-base | --- # 📄 Research Papers | Paper | Year | Link | | -------------------------------------------------- | ---- | ---------------------------------------- | | AraBERT: Transformer-based Model for Arabic | 2020 | https://arxiv.org/abs/2003.00104 | | CAMeL Tools: An Open Source Toolkit for Arabic NLP | 2020 | https://aclanthology.org/2020.lrec-1.868 | | Farasa: A Fast and Accurate Arabic NLP Toolkit | 2016 | https://aclanthology.org/L16-1170 | --- # 🤝 How to Contribute المشروع **مفتوح للمجتمع** ونرحب بأي إضافة. ### خطوات المساهمة 1. اعمل **Fork** للمستودع 2. أضف المصدر الجديد في القسم المناسب 3. حافظ على نفس تنسيق الجداول 4. افتح **Pull Request** ### مثال على إضافة مصدر ```markdown | Tool | Description | Link | |------|-------------|------| | Example NLP Tool | Arabic NLP library | https://github.com/example | ``` --- # 📜 License هذا المشروع مرخص تحت **MIT License**.