تتكوّن المدوّنة من حوالي 56 ألف كلمة/مدخلة تمّ جمعها من فيسبوك، تويتر، نصوص "وطَن ع وتر"، وغيرها. مع توسيم كل كلمة في المدوّنة إلى خصائص صَرفية بما فيها (التهجئة الصّحيحة، السّوابق، السّاق، اللّواحق، المدخلة العاميّة، المدخلة الفصحى، قسم الكلام، الجنس، العدد، وغيرها.) مع الالتزام بقواعد ائتلاف البيانات اللغوية التابع لجامعة بنسلفانيا (LDC)، إضافةً إلى أقسام الكلام والتعريفات الموجودة في معجم سما. وأُطلقت النسخة الأولى من هذه المدوّنة عام 2013، والنسخة الثانية هي النسخة المعدّلة من التوسيمات. وتقدّم هذه المقالة شرحاً للتعديلات والمراجعات. يمكن تنزيل المدوّنة (CC BY 4.0 License).
تتكوّن مدوّنة اللغات الأربعة من 1.2مليون كلمة/مدخلة، جُمعت من منصات مختلفة لمواقع التواصل الاجتماعي. جُمعت المدوّنة اليمنيّة بشكل أوتوماتيكي من منصّة تويتر، بينما جُمعت اللهجات الثلاثة الأخرى يدوياً من منصّات فيسبوك ويوتيوب. مع توسيم كل كلمة في مدوّنة اللهجات الأربعة إلى خصائص صَرفية بما فيها (التهجئة الصّحيحة، السّوابق، السّاق، اللّواحق، المدخلة العاميّة، المدخلة الفصحى، قسم الكلام، الجنس، العدد، والمعنى باللّغة الإنجليزيّة.) وأُنجزت عمليّة التوسيم بجهود 35 شخصاً ممّن تشكّل اللغة الّتي يتم العمل عليها لغتهم الأم. وقد تدرّب الموسّمين على مجموعة من الإرشادات حول كيفيّة استخدام منصّة (أداة) لتوسيم اللهجات العربيّة، وهي مصدر مفتوح. وتقدّم هذه المقالة شرحاً عن مدوّنة اللّغات الأربع. يمكن تنزيل المدوّنة العراقية (45 ألف مدخلة), اليمنية (1.5 مليون مدخلة), السودانية (52 ألف مدخلة), الليبية (51 ألف مدخلة) (CC BY 4.0 License).
تتكوّن المدونة من حوالي 60 ألف كلمة/مدخلة جُمعت من منشورات وسائل التواصل الاجتماعي، نصوص الأفلام والمسلسلات، كلمات الأغاني والأمثال المحلية. مع توسيم كل كلمة في المدوّنة إلى خصائص صَرفية بما فيها (التهجئة الصّحيحة، السّوابق، السّاق، اللّواحق، المدخلة العاميّة، المدخلة الفصحى، قسم الكلام، الجنس، العدد، وغيرها). علاوة على ذلك، تحتوي هذه المدونة على 10 لهجات سورية مختلفة، بما في ذلك: الشامية، الحلبية، الساحلية، الرقاوية، الديرية، الحمصية، الحورانية، السويداء، الحموية، والماردلية). كما وتقدّم هذه المقالة شرحاً عن المدونة. يمكن تنزيل المدونة (CC BY 4.0 License).
طورها باحثون في جامعتي بيرزيت والعربية الأميركية في بيروت وتضم أكثر من مليون كلمة
(Archive)