الخلفية اللسانية للمعجم المحوسب للعربية
معجم "المعالي" في إصداره الأول
مقدمة.
شهد ميدان المعجميات العربية المؤللة وشبه الآلية نشاطا ملحوظا حلال العقود الأخيرة وظهرت إلى الوجود برامج ومشاريع واعدة ومهمة في هذا الميدان وكان لمراكز الأبحاث في الغرب دور ريادي في المضمار . وسنتطرق في هذه الورقة لمعجم من هذا النوع وهو المعجم العربي الآلي المبني على المتن. ألا وهو معجم "معالي ".
معالي هو معجم طوره مركز اللسانيات الحاسوبية وعلوم الإعلام المطبقة على العربية بجامعة ليون (فرنسا) بالاشتراك مع المعهد الجهوي للإعلاميات والاتصالات بتونس والمدرسة الوطنية العليا لعلوم الأعلام والمكتبات بفرنسا ومعهد الأبحاث في الالكترونات بالقاهرة ومعهد الأبحاث في التعريب الرباط والجامعة الكاثوليكية بنيمنج هولندة .
وتهدف هذه الورقة إلى التعريف بالسمات العامة للقاعدة المعرفية ومكونات معجم معالي ( وهي اختزال : معجم العربية الآلي).
واعتمدنا في مصدرها على ورقة قدمت للندوة الدولية حول "المعالجة الآلية للغة العربية"، المنعقدة بجامعة المنوبة التونسية في أبريل عام 2002.
يتكون رصيد قاعدة المعجم من 129000 مدخلا مقسما على 20000 مدخل فعلي و 79000 مدخل من المشتقات الفعلية و29000 مدخل اسمي إضافة إلى 10000 جمع تكسير رفقة ما يقابلها من الأسماء و1000 اسم علم و 450 من الحروف والأدوات يضاف إل ذلك المجموع الكامل للواحق وحروف الزيادة في اللغة العربية.
وكما سنرى لاحقا فإن لأمر لا يتعلق فحسب بمجرد لائحة، إذ أن واجهة النقر والاستفسار عن المعطيات شكلت وكونت بطريقة تمكن من ربط المداخل المعجمية والمخصصات الصرفية التركيبية الموجهة للإنتاج الكلمات (وهي محركة ) والتعرف ( غير محركة) على الكلمات.
وشارك في إصدار معجم معالي في إصداره الأول كل من جامعة ليون والمعهد الوطني لعلوم المعلومات والمكتبات والمعهد الجهوي العالي لعلوم المعلوماتية والاتصالات بتونس حيث تم تسجيل المعطيات. وقد كان المعالي منطلقا للمشروع الأوروبي "معالي متعدد اللغات" المرتكز على المتن. والمحادثات جارية حاليا مع الجمعية الأوروبية للمراجع اللغوية بقصد توزيع المعجم واستغلاله .
ومن سمات هذا المعجم من وجهة نظر المعالجة الآلية للغات الحية أن إحدى المميزات الأساسية لقاعدة المعارف اللسانية لمعالي تتمثل في كون طريقة تنميط المعطيات اللسانية تسمح بتكتيل مهم لهذه الأخيرة. ومن وجهة نظر لسانية أو معجماتية بحتة يلاحظ الدقة والأمانة في تقديم المعطيات : فكل المداخل المعجمية المعتبرة هي بالفعل مداخل متواترة الاستعمال وليس معطيات مولدة من معجم متخيل مكون بتأليف الجذور والأوزان.
والمنهجية المتبعة في إعداد هذا المعجم تتميز في نفس الوقت بتنميط للمعطيات "النظامية" للغة في المجال الصرفي التركيبي للكلمة و تنميط للمعلومات المرتبطة بالمعجم والضابطة للعلاقات بين هذا المعجم والقواعد مع اشتمال على العلاقات غير النظامية. والجدير بالذكر هو أن وحدات المعجم هي غير محصورة العدد بعكس القواعد والحروف المعدودة والتي قد ترتبط بوحدة معجمية معينة.
وسنتطرق فيما يلي لثلاث نقاط مهمة في طريقة بناء المعجم :
- أولا تعريف للمخصِّصات والمميزات ويعني ذلك وضع معلومات معدودة ترتبط بكل وحدة معجمية محددة. والطريقة المتبعة مكنت من إسقاط معلومات معدودة على وحدات غير معدودة للمعجم . ويتعلق الأمر بتنميط جديد ومعمم للعلاقة بين النحو والمعجم.
- وثانيا هذه المعلومات هي متوافقة مع آليات المعالجات في التأليف والتحليل .
- وثالثا فإن رقن المخصصات والمميزات المرتبطة بكل وحدة معجمية تمت بواسطة بيواجهات سهلة الاستعمال أي أن المعطيات المدخلة تمت بلغة ذات مستوى جيد التوافق مع معارف متخصص في النحو العربي. وتستعمل هذه الواجهة طريقة التوليد لتقديم اختيارات بين عدة إمكانيات استنتجت انطلاقا من القواعد الصرفية.
تعريف بقاعدة المعارف ومحتواها.
يتعلق الأمر بقاعدة كلمات من اللغة العربية أي وحدات معجمية كالأسماء والصفات وأسماء الأعلام والأفعال و والوحدات النحوية كالحروف والأدوات والضمائر وحروف العطف والسوابق.
وإزاء كل واحد من هذه الألفاظ المدخلة في معجم معالي وضعت مجموعة من المعلومات أو المخصصات والتي تهدف إلى تسيير إقحام هذه الألفاظ في الوحدات المقطعية المعقدة والتي تشكل الكلمة الخطية كما هو واضح في رسيمة الكلمة العربية المخطوطة في العربية. وهذا الإقحام يغطي المجالين الكبيرين للعلاقة المعجمية النحوية ويتوسع إلى مجالات منها :
أولا على مستوى التوليد يتعلق الأمر انطلاقا من المعلومات الأساسية بتوليد للكلمات الخطية جيدة التكوين في الكتابة المحركة. وحسب التطبيقات فقد نحصل على ناتج النظام كتابة محركة كليا أو جزئيا. علما بأن الكتابة العربية العادية لا تتضمن الحركات القصيرة ولا تضعيف الصوامت ولا حركات الإعراب المكونة من حركة قصيرة متبوعة للأسماء والصفات النكرة حاملة نون تنوين.
هذه الحركات التي تحملها حروف الكتابة العربية توجد بشكل غير متواتر وغير منهجي في بعض النصوص الدينية كالقرآن والحديث أو النصوص الشعرية التراثية مثلا. وقد نجد نصوصا محركة كليا أو المحركة جزئيا وهي وسيلة لرفع اللبس بين الكلمات المتشابهة كأَعلم وأُعلم.
وثانيا على مستوى التحليل يتعلق الأمر هنا بتحليل وتقسيم الكلمة إلى العناصر الأولية وهي عملية شديدة الصعوبة في العربية لأن النصوص التي تقابل مداخل النظام هي مكتوبة بلا حركات.
ولا بد هنا من وقفة وملاحظة:
- إن التباين بين مسار التوليد (التركيب) ومسار التعرف (التحليل) المعاين في مجموع اللغات الإنسانية أشد بروزا في اللغة العربية لضرورة توليد الكلمات المكتوبة والمحركة كليا أو جزئيا وتحليل الكلمات المكتوبة غير المحركة. وإن تباين مساري الإنتاج والتعرف يحتم علينا فعلا معالجة أولية لنظام تحليل الكلمات المكتوبة الغير محركة أو المحركة جزئيا أو كليا. ونظام التوليد يجب من جهته أن يكون قادرا على توليد الكلمات المحركة. والمعالجتان رغم تقاسمها في العديد من السمات المشتركة لا يمكن اعتبارهما متوازيتان في بنيتيهما أو في المعلومات التي تشكل قاعدة ارتكازهما.
- ثم إن متطلبات الهندسيات اللغوية في العربية ـ والتي تهتم كما لاحظنا بجانب التعرف على النصوص غير المحركة ونادرا على النصوص المحركة وكذا على توليد النصوص المحركة أو غير الحركة وذلك حسب التطبيقات ـ تدفع بنا إذا إلى دمج التوليد والتعرف من جهة والكتابة المحركة والغير محركة من جهة ثانية. وكمثل عن ذلك:
o في التصحيح التدقيق الإملائي يصب الاهتمام عموما بالنصوص العادية المكتوبة بغير الحركات ولكنه في حالات المسعف في نشر وتحقيق النصوص التراثية أو في نشريات عالية المستوى يتم التعامل مع نصوص محركة كليا؛
o وفي التعرف والفهرسة الشبه آلية للنصوص يتم التعامل في العموم مع نصوص غير محركة؛
o تعليم اللغة العربية بالبرامج التفاعلية تعيد توليد المنهجية الإدراكية للمتعلم والتي هي في حاجة لتعلم وسائل إنتاج النصوص المحركة والتعرف على النصوص غير المحركة وهو ما يوافق مسار القراءة؛
o أما في التأليف الصوتي للعربية انطلاقا من النصوص بالكتابة العادية غير المحركة نكون في حاجة إلى طرق تحريك. ونمط تحريك كلمات اللغة المسعف بالحاسوب هو نقطة أولية على درب صوتمة آلية لهذه اللغة.
وبالتالي فإن قاعدة المعطيات لمعالي1 تخضع لشرط منهجي أساسي وهو التوافقية:
1- التوافق مع المسارين المتباينين للتوليد والتحليل للنصوص المكتوبة و
2- التوافق مع معطى الكتابة العربية المحركة وبدون حركات.
وقد نعبر عن ذلك بالقول أن معالي1 قد بني ارتكازا على وظيفة مبدأ التوافق بين المعرفية-الصيرورة.
معالي 1 يتكون من حوالي 129.000 مدخلا وهو ما يعطينا ككلمات متولدة بعد تطوير كل الأشكال المولدة انطلاقا من مداخل القاعدة 6.000.000 شكلا.
وقد حددت مداخل المعجم كالتالي:
المداخل الاسمية
ويتعلق الأمر:
- بالأسماء، مفردة أو جمعا، إذا كان شكلها متولدا من أوزان جمع التكسير؛
- بالصفات، مذكرة مفردة و كذا مؤنثة أو جمعا، حين تكون هذه الأشكال متولدة باشتقاق داخلي علما بأن الصفات في التراث العربي تعتبر من صنف الأسماء وهو ما وقع الاختيار عليه في معالي1؛
- بأسماء العلم وهي تتطلب نحوا خاصا بها.
المداخل الفعلية والمشتقات الفعلية.
وهي
-الأفعال مقدمة في شكلها التصريفي : الغائب المفرد المذكر، كما جرى بذلك الحال في المعاجم العربية وفي التعليم؛
- مشتقات الأفعال وهي المسماة أيضا مشتقات "اسمية فعلية مباشرة"، كالمصادر وأسماء الفاعل وأسماء المفعول أو الصفة المشبهة وأشباه الفعال. وهي مرتبطة في قاعدة المعطيات بالفعل المقابل.
مداخل الحروف العاملة وحروف الأداة،
وتشتمل على الحروف وأشباه الحروف وحروف الربط وحروف العطف وضمائر الأسماء والإشارة والموصولات إلخ.
حول المداخل
الوحدة المعجمية في اللغة العربية.
المداخل في قاعدة المعطيات لمعالي هي مجردة من اللواحق والسوابق والزيادات الداخلية والسابقة والتي ترتبط بها في النصوص. غير أن بعض الزيادات السابقة أصبحت معجمية وتشكل مع النواة وحدة معجمية متحدة ونتحدث حينها عن مكون معجمي موسع مثلا:
الزيادة السابقة وهي أداة التعريف " ألـ" ملازمة لكلمة "الطيب" ولاسم "كالبحرين" فهذا الأخير مكون من سابقة "أل" و"بحر" وزيادة خلفية "ين".
و"ــة" المرتبطة "بمدرسة" وهذه وحدة معجمية معقدة مكونة من نواة "مدرس" + لاحقة "ــة" وتجمع على "مدارس".
وكما سنرى في الأمثلة فإن المكون المعجمي الموسع مستقل عن النواة المعجمية للكلمة ولكنه داخل في الوحدة المعجمية والتي يكون أحد عناصرها.
ونلاحظ أن بعض الأسماء من المشتقات الفعلية أو المشتقات الفعلية المباشرة تغير صنفها وتصبح أسماء تامة مستقلة ويترجم ذلك :
بوجود أو انعدام جمع تكسير لكل الأسماء المكونة انطلاقا من المصدر مثلا "عِلم" كاسم يجمع على "علوم" في الوقت الذي ليس لعلم كمصدر فعلي جمعا وفي الواقع ليس لأي مصدر فعلي جمع في العربية .
جموع التكسير للأسماء المكونة على وزن فاعل "كساكن" تجمع جمع تكسير على "سكان" وفي الوقت الذي تجمع فيه أسماء الأفعال بالمقابل على "ساكنون" للمذكر و"ساكنات" للمؤنث.
هذه الوحدات تشكل مداخل منفصلة وذكرت مرتين في قاعدة المعطيات كأسماء وكمشتقات أفعال.
التقسيم المفهرس والوحدة المعجمية في العربية
التقسيم المفهرس يفترض الرجوع والإحالة إلى نفس الشكل القاعدي مثلا الإفراد وجموع التكسير لاسم ما، فأشكال جموع التكسير مرتبطة بالمفرد بخيوط موجهة (سهام). ويجب أيضا الأخذ بعين الاعتبار في مسار التحليل بضرورة التعرف على الأشكال المفردة المرتبطة بواحد أو أكثر من شكل جمع تكسير أو لا وكذلك بالعكس، علما أن التنبؤ بالقواعد لا يكون فعالا في جميع رصيد المعجم عكس الفكرة السائدة وهذا يعاين في العديد من اللغات.
وعملية التسهيم تربط الوحدات المعجمية:
بوحدة قريبة صرفية برابطة أي أن وحدة ما هي وليدة وحدة أخرى باشتقاق داخلي.
بواحدة معوضة للأخرى "كرجل" و"امرأة" ولو أنهما ليستا من نفس الأصل.
فرابط التسهيم إذن يمكن من تقسيم مفهرس وهو ناتج منتظر من التحليل.
بنية الكلمة والمخصِّصات
إن تصور وتشكيل قاعدة المعطيات لمعالم1 مبني على تمثيل ضمني للظواهر اللسانية على مستوى الكلمة. وهذا التمثيل هو نفسه موضوع تتحكم فيه خصائص الملائَمة مع التوليد والتعرف على التوليد المذكورة عاليه. وسنلخص أسفله رسيمة للكلمة العربية المكتوبة وبنية الوحدة المعجمية والمخصصات الصرفية التركيبية المرتبطة بالوحدات المعجمية اسمية كانت أو فعلية وكذا الأدوات والحروف وتنظيم المعجم والخطوط الرابطة بين الوحدات المعجمية.
رسيمة الكلمة الكتابية العربية .
الكلمة المكتوبة في العربية لها بنية موضوعية معقدة وقد عبر دافيد كوهن بالكلمة القصوى عن وحدة متجزئة إلى سوابق ولواحق وزيادة سابقة ولاحقة وداخلية وقاعدة وسنقدم مثلا مختزلا لها في الجدول أسفله.
القاعدة للقسم المعجمي ويدخل ذلك في نظام الاشتقاق الخاص باللغات السامية من نفس العائلة اللغوية كالعربية وهي تتحلل إلى جذر ووزن. ونسجل مع ذلك بأنه توجد مجموعة من الكلمات لا يمكن تحليلها بهذا الشكل. وهذه الأسماء تقابل شبه قاعدة "كياسمين و"إبراهيم" إلخ.
والقاعدة وشبه القاعدة هن النواة المعجمية للكلمة الكتابية (أو المكون النواة) وبقية المكونات هي توسعات (أو مكونات موسعة)
ونتمثل الكلمة على شكل الجدول التالي:
تمثيل تقليدي
بالمكونات المباشرة
أمثلة |ــــــــــــــــــــــــــــــــــــــــــــــ الكلمة القصوى ـــــــــــــــــــــــــــــــــــــــ|
|ـــــــــــــــــــ الكلمة الدنياـــــــــــــــــــــــــ|
##زيادة سابقة # سابقة + { قاعدة أو شبه قاعدة } + لاحقة # زيادة داخلية##
## ل # ت +كْتُب +و #ه##
تمثيل يبرز وضوح النواة المعجمية مكون نواة
\ /
\ /
\ /
مكون موسع ـــــــــــــــــــــــــــــــــــــــ مكون موسع
وقصد في الجدول أعلاه بالفاصلة ## حدود الكلمة وتمكن التجربة من التفريق بين نوعية الحدود + (سابقة أو لاحقة) والحدود # (زيادة سابقة أو داخلية) والوقف الممكن، وفي غيبة سابقة أو لاحقة مربوطة بحدود + فإن القاعدة وشبه القاعدة لا يمكن أن تشكل شكلا أدنى مستقلا دونيا. وبالعكس يمكن من هذه الوجهة الاغتناء عن المزيد الداخلي واللاحق .
الوحدة المعجمية المكون النواة والمكون الموسع.
تتلخص بنية الوحدة المعجمية في العربية فيما يلي:
أولا الكلمة هي وحدة لسانية من مظاهرها البارزة الكلمة المكتوبة.
ثانيا الصياغم المكونة للوحدة ـ الكلمة والمسماة بمكونات الكلمة أي العلامات اللسانية الدونية ذات العلاقات السياقية المحدودة بالصياغم الأخرى المتضمنة في الوحدة المركبة المكونة للكلمة في شكلها المكتوب.
ثالثا هذه المكونات يمكن أن تنقسم إلى مكونات نواة ومكونات موسعة.
والمكونات الموسعة تتسم بعلاقة من نوعين:
I. علاقة الترتيب وتتجلى في مواقع المكونات على الخط الموجه الممثل للكلمة .
II. مجموعة علاقات التضام وموضوعها تزكية (أو لا) ملائمة المكونات فيما بينها، فمثلا /س+/ وهي علامة المستقبل ليست ملائمة إلا مع سوابق ولواحق جدول تصريف الفعل المضارع.
وكذلك تمكين التغيرات التي تمس عددا كبيرا من المكونات بحسب سياقها مثلا التغيرات في القاعدة الفعلية إذا كانت من الجذور الشاذة حسب العدد الجنس والمخاطب، ويجب أن يكون النحو الذي يتحكم في هذه العلاقات ملائما مع وظيفتي التأليف والتحليل أخذا بعين الاعتبار التباين الذي يؤدي بالتحليل إلى إنتاج الأشكال المحركة وبالتحليل إلى تحليل الكلمات غير المحركة .
رابعا الوحدة ـ الكلمة المعرفة بهذه الطريقة هي إذن موسومة بنيويا بما يلي:
أ بعلاقة الترتيب الضيق بين المكونات التي تشكل الوحدة وهذه العلاقة ممثلة صوريا ببنية شعاع مرتب.
ب بوجود "مكون نواة" مقابل لصنف معجمي (القاعدة) أي لوحدات غير معدودة ومجموعة "مكونات موسعة" تقابل حقول شعاع تمثيل الكلمة محينة بحروف وظيفية وكيفية وضمائر وهي غير معدودة.
وهذه النقطة الأخيرة تعني أنه يجب التمييز داخل مجموعة الكلمات المكتوبة بين:
الكلمات الشكل والتي تشمل النواة المعجمية
والكلمات ـ الشكل مثل : \ب ــ كم\ و\لــ ـــ أنَّـ ـــ كم\ والتي ليست لها نواة.
خامسا إن "المكون النواة" لا يقابل ضرورة وحدة معجمية. وفعلا بإمكان بعض المكونات الموسعة حين تربط بقاعدة اسمية أن تدخل في مسار معجمي. ويقال بأن مكونا موسعا أصبح معجميا (= مكون موسع معجمي) حين تكون الوحدة (مكون نواة ومكون موسع معجم) الناتجة عن ربطها بمكون نواة ما تشكل وحدة معجمية مستقلة.
وتكون الوحدة النواة مشكلة من :
من "مكون نواة" (ونقول بأن < وحدة معجمية = مكون نواة >) وهي حالة عناصر القواعد الفعلية أو القواعد الاسمية والتي لا تحمل مكونات موسعة معجمية ككلمة "النادر".
أو مجموعة وحدات معجمية = < مكون نواة،مكون نواة موسع معجمي > حيث يتضمن مكون النواة الموسع المعجمي أكثر من مكون وترتيبه المقطعي موسوم بنحو مكونات الكلمة مثلا "نادرة" جمعها " نوادر" وهي تكون وحدة معجمية مستقلة عن المثال السابق "نادر" وتحلل على الشكل التالي:
وحدة معجمية = < مكون نواة = \ناذر\،مكون نواة موسع مستقل = \ + أل\ >.
ويمكن صياغة الفرضية التي تقول بأن علاقة الترتيب بالمعنى الضيق مع وجود نواة معجمية تشكلان سمتين عموميتين للتعريف بالكلمة وتتجليان مباشرة في الكلمة المكتوبة. وكما لاحظنا في آخر الفقرة السابقة بأن مثل : \و # لكن # ه \ لا يمكن أن يمثل بواسطة شعاع تمثيل الكلمة وذلك أن انعدام النواة المعجمية في الكلمات يفسر عدم الملائمة هذه. والشعاع هو فعلا وسيلة تمثيل للكلمة ـ الشكل في سماته البنيوية عاليه.
المخصصات الصرفية التركيبية للقاعدة المعجمية.
وارتباطا بالقواعد في المعجم الخاص بالنظام تدبر المخصصات الصرفية التركيبية العلاقات بين الأخيرة والمكونات المنتمية للحقول الأخرى للشعاع أي العلاقات بين المكون النواة و المكونات الموسعة. ويتعلق الأمر بالمؤشرات الرمزية أو المصاغة باللغة الطبيعية والممثلة للعلاقات السياقية ذات الطبيعة الصرفية التركيبية أو الدلالية بين القواعد المعجمية وباقي مكونات الكلمة ـ الشكل.
والمخصصات الصرفية التركيبية هي حصرا مرتبطة بالقواعد المعجمية:
وتوقيفا فهي المعلومات الخاصة بآليات التضام والمتحكمة في العلاقات بين المكونات الموسعة وهي متضمنة في نحو المكونات للكلمة.
والمخصصات الخاصة بالعلاقة بين المكونات النواة والمكونات الموسعة يمكن أن تربط بالمكونات الأولى أو الثانية ولكن نربطها طبعا بالمكونات النواة نظرا لأن عددها معدود عكس المكونات الموسعة. ( وإذا رغبنا أن تكون المخصصات الصرفية التركيبية معدودة فيجب ربطها بالقواعد المعجمية أي بالمكونات النواة. وفعلا فإن العلاقات المكونات النواة ـــ> والمكونات الموسعة هي معدودة نظرا للقلة النسبية للمكونات الموسعة وهذا ليس وضع العلاقات بين المكونات الموسعةــــ> والمكونات النواة فإن المكونات النواة غير معدود).
خلاصة: رسيمة تنظيم المعجم المؤلل.
شيد المعجم على اعتبار أنه قاعدة معطيات علاقية والمعجم في إرهاصاته السابقة كان يتكون من نوعين من اللوائح أساسيتين:
أ / نوع يقابل جردا محدود العدد للمكونات (اللواحق السابقة والزيادات السابقة واللاحقة والداخلية) جمعت بسلسلة الحروف الأطول والتي نسميها سابق ولاحق القاعدة.
ب / نوع يقابل الجرد غير المعدود ويعني القواعد وشبه القواعد المجموعة في مداخل أساسية سميت تباعا بالجذور أو شبه الجذور.
وعناصر هذه اللوائح مسجلة على شكلين يقابلان بحسب حالات الكتابة المحركة وغير المحركة.
وبإزاء وحدات المعجم ربطت المعلومات المصورنة في نحو مكونات الكلمة والتي تسير العلاقات بين التضام (بواسطة المخصصات الصرفية التركيبية للقواعد) ومجموعة العلاقات السهمية الرابطة بين القواعد.
واتفاقا فإن المعجم المؤلل الذي يكون قاعدة المعارف المعنية هنا يفصل جذريا بين تنظم المعارف لدى الكائن البشري وبين اللوائح المقابلة للجرد المعدود (الوظيفيات والكيفيات) و اللوائح غير المعدودة (وحدات معجمية). وتكون المخصصات الصرفية التركيبية تعريفا مرتبطة بالوحدات المنتمية لهذا الجرد الأخير.
وبهدف تحديد علاقة بين القواعد المرتبطة بنفس المدخل في تنظيم المعجم الأساسي يجب التمييز بين مدخل الجذر و القواعد والتي ليست ممثلة بهذا الشكل والمسماة شبة القواعد والتي يجب أن تربط ليس بحذر وإنما بوحدة شبة حذر.
ويعكس المعجم المؤلل بهذا الشكل التقسيم الثنائي الأساسي للمعجم العربي.
فيما يلي الرسيمة الملخصة:
معجم الوحدات المعجمية
الجذور شبه الجذور
قواعد
اسمية
(+مخصصات القواعد الاسمية) قواعد
فعلية
(+ مخصصات القواعد الفعلية) شبه قواعد
اسمية
(+مخصصات القواعد الاسمية)
تعليقات:
إن القواعد مسجلة على شكل مضعف بحروف النطق محركة وغير محركة مصحوبة بمخصصات صرفية تركيبية مقابلة. وأشباه الجذور تقابل الأشكال الغير محركة لأشباه القواعد ولا تحمل طبعا أي مخصص. وخط القواعد في الجدول عاليه المقابلة لمداخل المعجم هي الجذور وأشباه الجذور وللمداخل الأساسية أو المداخل الممتازة والتي تتكل حولها القواعد.
هذه الرسيمة تمكن من تصور مختلف لأنواع السهام مثلا:
قاعدة "امرأة" وجمعها "نساء" ترتبطان بجذر مختلف.
القاعدة الاسمية "سفرجل" لها مدخل أساسي شبه جذر \س – ف – ر- ج- ل\ . وللحصول على جمعه \سفارج\ ممثلة في الجذر الرباعي \س- ف- ر-ج\ ووزن \فواعل\ يجب إذن وضع سهام انطلاقا من هذا الجذر في لائحة القواعد الاسمية حيث نجد \سفارج\. وهذا المسار الخلفي المعقد التنظيم للكلمات التي لا تمتلك عدد الأحرف الضرورية لتكوين جذر قديم في اللغة كما يبرهن عنه المثال التالي:
"فم" شبه الجذر \ف – م\ جمعه أفواه وجذره القياسي (باستقلالية من كل صيرورة تأصيلية مستقاة بالمقاربة مع اللغات السامية الأخرى وهي صيرورة غير معروفة للمعجميين العرب في القرون الوسطى) لا يمكن إلا أن تكون \ ف – و – ه\ وهي ما لا تعكسه المعاجم العربية القديمة أو الحديثة إلا بشكل غير مباشر.
وإن إدخال السهام يمكن من وضع علاقة ليس فحسب للكلمات المرتبطة بنفس المدخل الأساسي المقابل لجذر ولكن أيضا للكلمات المصففة تحت المداخل الأساسية المختلفة والتي يمكن أن تكون جذورا أو أشباه الجذور.
اختزال معالي وبالأعجمية DINAR MBC.
بإ شراف الأستاذ يوسف ديشي.
بإشراف الأساتذة عبد الفتاح برهام وسالم غزالي.
بإشراف الأستاذ محمد حسون.
بإشراف الأستاذ حجازي.
بإشراف الأستاذ عبد القادر الفاسي الفهري.
بإشراف الأستاذ ديترز.
تشكل مسألة الحركات وتشكيل الكلمة في العربية موضوعا رئيسيا في معالجة اللغة العربية ومعالجة تراكيب اللغة العربية تتخلف عن اللغات الغربية مثلا لوجوب الأخذ بعين الاعتبار بحقيقة هذه الوضعية المتميزة للغة العربية. ونصنف الكلمة المحركة إلى جزئية التحريك "مَدْخَل" وكاملة التحريك "مَدْخَلٌ" ونصف محركة "دخْل" ويكون التحريك إما لتسهيل القراءة في النصوص التراثية وإما لإزالة اللبس والغموض.
http://www.elda.fr
للزيادة عد ليوسف ديشي ، مقالة "نحو معجمية تصنيفية للغة العربية: الوحدات المعجمية البسيطة والجرد المعدود لمخصصات مجال الكلمة"، بالفرنسية، نشر بمجلة ميطا، كندا منشورات جامعة مونريال. عدد42 خريف 1997 صك 291-306
راجع للمزيد التقرير المتعلق بتصور لمركب ولمحلل صرفي للعربية بإشراف الأستاذ جون بيار دكلي بطلب من مديرية السياسة اللغوية التابعة لوزارة الخارجية الفرنسية. وباشتراك كل من جمال الدين كولوكلي و ومحمد زياده ويوسف ديشي...
وأيضا " نحو نموذج للتحليل الآلي للكلمة الغير محركة العربية"، لمحمد حسون ويوسف ديشي، 1989، ص: 92-158. ,اطروحة يوسف ديشي "الخط في تمثيل اللغة"، 1990.
سهولة الاستعمال تعد من الخصائص الضرورية والمطلوبة في مختلف المعالجات الآلية. ونجاح أي مشروع تأليل مرتبط بهذه الخصية المهمة.
كما سنرى لاحقا كان دافيد كوهن من السابقين لتحديد هذه الرسيمة.
الكلمة المخطوطة هي نفسها الكلمة المكتوبة وتختلف بالطبع عن الكلمة المنطوقة ذلك أن الكتابة العربية لا تحمل حروفها كل حركات النطق وقد تتشابه كلمتين كتابة وتختلفان معنى ونطقا عكس اللغات اللاتينية التي تكون الكلمة فيها مزيجا بين الصامت والصائت (الحركة).
راجع أطروحة يوسف ديشي. و"المنظومة المعرفية، المحاكاة والتعليم المسعف بالحاسوب لأشكال الأفعال العربية تحليلا وتأليفا" منشورات جامعة نيميج ص: 67-84،92-95، 1993.
راجع مقالة يوسف ديشي " نحو معجمية تصنيفية للعربية" م.س .
يميز النحاة العرب القدماء بين المصدرين، والمصدر إذا افتقد فعليته تحول إلى اسم عادي أما إذا احتفظ بها فيعامل معاملة الفعل.
أول مستعرب فرنسي قدم رسيمة للكلمة العربية كان دافيد كوهن في مقاله " محاولة لتحليل آلي للعربية" 19961، وأعيد نشره في كتابه دراسات لسانية سامية وعربية، موتون 1970. وارجع للمزيد إلى مقالة يوسف ديشي " نجو تصنيفية معجمية للكلمة العربية" م.س.
لتعريف مدقق بهذه المصطلحات ارجع إلى معجم التعريفات صفحات 265-275 من كتاب يوسف ديشي ومحمد حسون "نحو أنموذج للتحليل الآلي للكلمة المكتوبة غير المحركة في العربية"، 1989 وكذالك الفقرة العاشرة من أطروحة يوسف ديشي.م.س.
راجع يوسف ديشي ومحمد حسون مقالة " المحاكاة نموذج اللسانية لتعليم العربية المسعف بالحاسوب " أعمال1 مجموعة البحث حول تحليل الصرفي الحاسوبي للعربية، منشورات المجلس الدولي للغة الفرنسية1989. وكذا أطروحة يوسف ديشي.
راجع مشروع "سامية تطور وآفاق"، بالإنجليزية، منشورات جامعة نيمينج،1987 مجلة معالجات العربية عدد2ن ص: 1-26.
راجع أطروحة محمد حسون "تطوير معجم للمعالجة الآلية للعربية في مختلف سياقات التطبيق" جامعة ليون 1987.
مراجع:
Abu Al-Chay Najim(1988), Un système expert pour l’analyse et la production des verbes arabes dans une perspective d’Enseignement Assisté par Ordinateur,
أطروحة لنيل شهادة الدكتورة جامعة ليون فرنسا. 1988.
Cohen David (1961/70), « Essai d’une analyse automatique de l’arabe », 1961(T.A. informations), in D. Cohen, Etudes de linguistique sémitique et arabe, Paris : Mouton,1970.
Desclés J.-P. et al. (1983) : H. Abaab, J.-P. Desclés, J. Dichy, D.E. Kouloughli, M.S. Ziadah, Conception d’un synthétiseur et d’un analyseur morphologique de l’arabe, en vue d’une utilisation en Enseignement assisté par ordinateur,
تقرير بإشراف الأستاذ جان بيار دكلي لصالح وزارة الخارجية الفرنسية مديرية السياسة اللغوية.
Dichy J. & Hassoun M. ناشرون, Simulation de modèles linguistiques et enseignement assisté par ordinateur de l’arabe,
أعمال سامية 1، منشورات المجلس الدولي للغة الفرنسية باريس، 1989.
Dichy J. « The Samia Research Program, Year Four, Progress and prospects »,
مجلة Processing Arabic Report عدد2 منشورات الجامعة الكاثوليكية بنيميج هولندة ص: 1-26.
Dichy J. « Vers un modèle d’analyse automatique du mot graphique non -vocalisé en arabe », in Dichy & Hassoun, 1989, pp :92-158.
Dichy J. Dichy J. « Pour une léxicographie de l’arabe : l’unité eéxicale simple et l’inventaire fini des spécificateurs du domaine du mot »
,مجلة ميطا عدد 42 خريف 1997 كيبك كندا منشورات جامعة مونريال ص:291-306
Dichy J.l’écriture dans la représentation de la langue : la lettre et le mot en arabe,
أطروحة الدولة جامعة ليون 1990.
Ditters E.ناشر.(1986-1995),مجلة Processing Arabic Report,
أعدد 1/1986 و2/1987 و3/1988 و4/1989 و5/1990 و6-7/1993 و9/1995. منشورات معهد لغات وثقافات الشرق الأوسط الجامعة الكاثوليكية نيميج هولندة.
Hassoun M. Conception d’un dictionnaire pour le traitement automatique de l’arabe dans différents contextes d’application,
أطروحة الدولة جامعة ليون فرنسا،
.
معجم "المعالي" في إصداره الأول
مقدمة.
شهد ميدان المعجميات العربية المؤللة وشبه الآلية نشاطا ملحوظا حلال العقود الأخيرة وظهرت إلى الوجود برامج ومشاريع واعدة ومهمة في هذا الميدان وكان لمراكز الأبحاث في الغرب دور ريادي في المضمار . وسنتطرق في هذه الورقة لمعجم من هذا النوع وهو المعجم العربي الآلي المبني على المتن. ألا وهو معجم "معالي ".
معالي هو معجم طوره مركز اللسانيات الحاسوبية وعلوم الإعلام المطبقة على العربية بجامعة ليون (فرنسا) بالاشتراك مع المعهد الجهوي للإعلاميات والاتصالات بتونس والمدرسة الوطنية العليا لعلوم الأعلام والمكتبات بفرنسا ومعهد الأبحاث في الالكترونات بالقاهرة ومعهد الأبحاث في التعريب الرباط والجامعة الكاثوليكية بنيمنج هولندة .
وتهدف هذه الورقة إلى التعريف بالسمات العامة للقاعدة المعرفية ومكونات معجم معالي ( وهي اختزال : معجم العربية الآلي).
واعتمدنا في مصدرها على ورقة قدمت للندوة الدولية حول "المعالجة الآلية للغة العربية"، المنعقدة بجامعة المنوبة التونسية في أبريل عام 2002.
يتكون رصيد قاعدة المعجم من 129000 مدخلا مقسما على 20000 مدخل فعلي و 79000 مدخل من المشتقات الفعلية و29000 مدخل اسمي إضافة إلى 10000 جمع تكسير رفقة ما يقابلها من الأسماء و1000 اسم علم و 450 من الحروف والأدوات يضاف إل ذلك المجموع الكامل للواحق وحروف الزيادة في اللغة العربية.
وكما سنرى لاحقا فإن لأمر لا يتعلق فحسب بمجرد لائحة، إذ أن واجهة النقر والاستفسار عن المعطيات شكلت وكونت بطريقة تمكن من ربط المداخل المعجمية والمخصصات الصرفية التركيبية الموجهة للإنتاج الكلمات (وهي محركة ) والتعرف ( غير محركة) على الكلمات.
وشارك في إصدار معجم معالي في إصداره الأول كل من جامعة ليون والمعهد الوطني لعلوم المعلومات والمكتبات والمعهد الجهوي العالي لعلوم المعلوماتية والاتصالات بتونس حيث تم تسجيل المعطيات. وقد كان المعالي منطلقا للمشروع الأوروبي "معالي متعدد اللغات" المرتكز على المتن. والمحادثات جارية حاليا مع الجمعية الأوروبية للمراجع اللغوية بقصد توزيع المعجم واستغلاله .
ومن سمات هذا المعجم من وجهة نظر المعالجة الآلية للغات الحية أن إحدى المميزات الأساسية لقاعدة المعارف اللسانية لمعالي تتمثل في كون طريقة تنميط المعطيات اللسانية تسمح بتكتيل مهم لهذه الأخيرة. ومن وجهة نظر لسانية أو معجماتية بحتة يلاحظ الدقة والأمانة في تقديم المعطيات : فكل المداخل المعجمية المعتبرة هي بالفعل مداخل متواترة الاستعمال وليس معطيات مولدة من معجم متخيل مكون بتأليف الجذور والأوزان.
والمنهجية المتبعة في إعداد هذا المعجم تتميز في نفس الوقت بتنميط للمعطيات "النظامية" للغة في المجال الصرفي التركيبي للكلمة و تنميط للمعلومات المرتبطة بالمعجم والضابطة للعلاقات بين هذا المعجم والقواعد مع اشتمال على العلاقات غير النظامية. والجدير بالذكر هو أن وحدات المعجم هي غير محصورة العدد بعكس القواعد والحروف المعدودة والتي قد ترتبط بوحدة معجمية معينة.
وسنتطرق فيما يلي لثلاث نقاط مهمة في طريقة بناء المعجم :
- أولا تعريف للمخصِّصات والمميزات ويعني ذلك وضع معلومات معدودة ترتبط بكل وحدة معجمية محددة. والطريقة المتبعة مكنت من إسقاط معلومات معدودة على وحدات غير معدودة للمعجم . ويتعلق الأمر بتنميط جديد ومعمم للعلاقة بين النحو والمعجم.
- وثانيا هذه المعلومات هي متوافقة مع آليات المعالجات في التأليف والتحليل .
- وثالثا فإن رقن المخصصات والمميزات المرتبطة بكل وحدة معجمية تمت بواسطة بيواجهات سهلة الاستعمال أي أن المعطيات المدخلة تمت بلغة ذات مستوى جيد التوافق مع معارف متخصص في النحو العربي. وتستعمل هذه الواجهة طريقة التوليد لتقديم اختيارات بين عدة إمكانيات استنتجت انطلاقا من القواعد الصرفية.
تعريف بقاعدة المعارف ومحتواها.
يتعلق الأمر بقاعدة كلمات من اللغة العربية أي وحدات معجمية كالأسماء والصفات وأسماء الأعلام والأفعال و والوحدات النحوية كالحروف والأدوات والضمائر وحروف العطف والسوابق.
وإزاء كل واحد من هذه الألفاظ المدخلة في معجم معالي وضعت مجموعة من المعلومات أو المخصصات والتي تهدف إلى تسيير إقحام هذه الألفاظ في الوحدات المقطعية المعقدة والتي تشكل الكلمة الخطية كما هو واضح في رسيمة الكلمة العربية المخطوطة في العربية. وهذا الإقحام يغطي المجالين الكبيرين للعلاقة المعجمية النحوية ويتوسع إلى مجالات منها :
أولا على مستوى التوليد يتعلق الأمر انطلاقا من المعلومات الأساسية بتوليد للكلمات الخطية جيدة التكوين في الكتابة المحركة. وحسب التطبيقات فقد نحصل على ناتج النظام كتابة محركة كليا أو جزئيا. علما بأن الكتابة العربية العادية لا تتضمن الحركات القصيرة ولا تضعيف الصوامت ولا حركات الإعراب المكونة من حركة قصيرة متبوعة للأسماء والصفات النكرة حاملة نون تنوين.
هذه الحركات التي تحملها حروف الكتابة العربية توجد بشكل غير متواتر وغير منهجي في بعض النصوص الدينية كالقرآن والحديث أو النصوص الشعرية التراثية مثلا. وقد نجد نصوصا محركة كليا أو المحركة جزئيا وهي وسيلة لرفع اللبس بين الكلمات المتشابهة كأَعلم وأُعلم.
وثانيا على مستوى التحليل يتعلق الأمر هنا بتحليل وتقسيم الكلمة إلى العناصر الأولية وهي عملية شديدة الصعوبة في العربية لأن النصوص التي تقابل مداخل النظام هي مكتوبة بلا حركات.
ولا بد هنا من وقفة وملاحظة:
- إن التباين بين مسار التوليد (التركيب) ومسار التعرف (التحليل) المعاين في مجموع اللغات الإنسانية أشد بروزا في اللغة العربية لضرورة توليد الكلمات المكتوبة والمحركة كليا أو جزئيا وتحليل الكلمات المكتوبة غير المحركة. وإن تباين مساري الإنتاج والتعرف يحتم علينا فعلا معالجة أولية لنظام تحليل الكلمات المكتوبة الغير محركة أو المحركة جزئيا أو كليا. ونظام التوليد يجب من جهته أن يكون قادرا على توليد الكلمات المحركة. والمعالجتان رغم تقاسمها في العديد من السمات المشتركة لا يمكن اعتبارهما متوازيتان في بنيتيهما أو في المعلومات التي تشكل قاعدة ارتكازهما.
- ثم إن متطلبات الهندسيات اللغوية في العربية ـ والتي تهتم كما لاحظنا بجانب التعرف على النصوص غير المحركة ونادرا على النصوص المحركة وكذا على توليد النصوص المحركة أو غير الحركة وذلك حسب التطبيقات ـ تدفع بنا إذا إلى دمج التوليد والتعرف من جهة والكتابة المحركة والغير محركة من جهة ثانية. وكمثل عن ذلك:
o في التصحيح التدقيق الإملائي يصب الاهتمام عموما بالنصوص العادية المكتوبة بغير الحركات ولكنه في حالات المسعف في نشر وتحقيق النصوص التراثية أو في نشريات عالية المستوى يتم التعامل مع نصوص محركة كليا؛
o وفي التعرف والفهرسة الشبه آلية للنصوص يتم التعامل في العموم مع نصوص غير محركة؛
o تعليم اللغة العربية بالبرامج التفاعلية تعيد توليد المنهجية الإدراكية للمتعلم والتي هي في حاجة لتعلم وسائل إنتاج النصوص المحركة والتعرف على النصوص غير المحركة وهو ما يوافق مسار القراءة؛
o أما في التأليف الصوتي للعربية انطلاقا من النصوص بالكتابة العادية غير المحركة نكون في حاجة إلى طرق تحريك. ونمط تحريك كلمات اللغة المسعف بالحاسوب هو نقطة أولية على درب صوتمة آلية لهذه اللغة.
وبالتالي فإن قاعدة المعطيات لمعالي1 تخضع لشرط منهجي أساسي وهو التوافقية:
1- التوافق مع المسارين المتباينين للتوليد والتحليل للنصوص المكتوبة و
2- التوافق مع معطى الكتابة العربية المحركة وبدون حركات.
وقد نعبر عن ذلك بالقول أن معالي1 قد بني ارتكازا على وظيفة مبدأ التوافق بين المعرفية-الصيرورة.
معالي 1 يتكون من حوالي 129.000 مدخلا وهو ما يعطينا ككلمات متولدة بعد تطوير كل الأشكال المولدة انطلاقا من مداخل القاعدة 6.000.000 شكلا.
وقد حددت مداخل المعجم كالتالي:
المداخل الاسمية
ويتعلق الأمر:
- بالأسماء، مفردة أو جمعا، إذا كان شكلها متولدا من أوزان جمع التكسير؛
- بالصفات، مذكرة مفردة و كذا مؤنثة أو جمعا، حين تكون هذه الأشكال متولدة باشتقاق داخلي علما بأن الصفات في التراث العربي تعتبر من صنف الأسماء وهو ما وقع الاختيار عليه في معالي1؛
- بأسماء العلم وهي تتطلب نحوا خاصا بها.
المداخل الفعلية والمشتقات الفعلية.
وهي
-الأفعال مقدمة في شكلها التصريفي : الغائب المفرد المذكر، كما جرى بذلك الحال في المعاجم العربية وفي التعليم؛
- مشتقات الأفعال وهي المسماة أيضا مشتقات "اسمية فعلية مباشرة"، كالمصادر وأسماء الفاعل وأسماء المفعول أو الصفة المشبهة وأشباه الفعال. وهي مرتبطة في قاعدة المعطيات بالفعل المقابل.
مداخل الحروف العاملة وحروف الأداة،
وتشتمل على الحروف وأشباه الحروف وحروف الربط وحروف العطف وضمائر الأسماء والإشارة والموصولات إلخ.
حول المداخل
الوحدة المعجمية في اللغة العربية.
المداخل في قاعدة المعطيات لمعالي هي مجردة من اللواحق والسوابق والزيادات الداخلية والسابقة والتي ترتبط بها في النصوص. غير أن بعض الزيادات السابقة أصبحت معجمية وتشكل مع النواة وحدة معجمية متحدة ونتحدث حينها عن مكون معجمي موسع مثلا:
الزيادة السابقة وهي أداة التعريف " ألـ" ملازمة لكلمة "الطيب" ولاسم "كالبحرين" فهذا الأخير مكون من سابقة "أل" و"بحر" وزيادة خلفية "ين".
و"ــة" المرتبطة "بمدرسة" وهذه وحدة معجمية معقدة مكونة من نواة "مدرس" + لاحقة "ــة" وتجمع على "مدارس".
وكما سنرى في الأمثلة فإن المكون المعجمي الموسع مستقل عن النواة المعجمية للكلمة ولكنه داخل في الوحدة المعجمية والتي يكون أحد عناصرها.
ونلاحظ أن بعض الأسماء من المشتقات الفعلية أو المشتقات الفعلية المباشرة تغير صنفها وتصبح أسماء تامة مستقلة ويترجم ذلك :
بوجود أو انعدام جمع تكسير لكل الأسماء المكونة انطلاقا من المصدر مثلا "عِلم" كاسم يجمع على "علوم" في الوقت الذي ليس لعلم كمصدر فعلي جمعا وفي الواقع ليس لأي مصدر فعلي جمع في العربية .
جموع التكسير للأسماء المكونة على وزن فاعل "كساكن" تجمع جمع تكسير على "سكان" وفي الوقت الذي تجمع فيه أسماء الأفعال بالمقابل على "ساكنون" للمذكر و"ساكنات" للمؤنث.
هذه الوحدات تشكل مداخل منفصلة وذكرت مرتين في قاعدة المعطيات كأسماء وكمشتقات أفعال.
التقسيم المفهرس والوحدة المعجمية في العربية
التقسيم المفهرس يفترض الرجوع والإحالة إلى نفس الشكل القاعدي مثلا الإفراد وجموع التكسير لاسم ما، فأشكال جموع التكسير مرتبطة بالمفرد بخيوط موجهة (سهام). ويجب أيضا الأخذ بعين الاعتبار في مسار التحليل بضرورة التعرف على الأشكال المفردة المرتبطة بواحد أو أكثر من شكل جمع تكسير أو لا وكذلك بالعكس، علما أن التنبؤ بالقواعد لا يكون فعالا في جميع رصيد المعجم عكس الفكرة السائدة وهذا يعاين في العديد من اللغات.
وعملية التسهيم تربط الوحدات المعجمية:
بوحدة قريبة صرفية برابطة أي أن وحدة ما هي وليدة وحدة أخرى باشتقاق داخلي.
بواحدة معوضة للأخرى "كرجل" و"امرأة" ولو أنهما ليستا من نفس الأصل.
فرابط التسهيم إذن يمكن من تقسيم مفهرس وهو ناتج منتظر من التحليل.
بنية الكلمة والمخصِّصات
إن تصور وتشكيل قاعدة المعطيات لمعالم1 مبني على تمثيل ضمني للظواهر اللسانية على مستوى الكلمة. وهذا التمثيل هو نفسه موضوع تتحكم فيه خصائص الملائَمة مع التوليد والتعرف على التوليد المذكورة عاليه. وسنلخص أسفله رسيمة للكلمة العربية المكتوبة وبنية الوحدة المعجمية والمخصصات الصرفية التركيبية المرتبطة بالوحدات المعجمية اسمية كانت أو فعلية وكذا الأدوات والحروف وتنظيم المعجم والخطوط الرابطة بين الوحدات المعجمية.
رسيمة الكلمة الكتابية العربية .
الكلمة المكتوبة في العربية لها بنية موضوعية معقدة وقد عبر دافيد كوهن بالكلمة القصوى عن وحدة متجزئة إلى سوابق ولواحق وزيادة سابقة ولاحقة وداخلية وقاعدة وسنقدم مثلا مختزلا لها في الجدول أسفله.
القاعدة للقسم المعجمي ويدخل ذلك في نظام الاشتقاق الخاص باللغات السامية من نفس العائلة اللغوية كالعربية وهي تتحلل إلى جذر ووزن. ونسجل مع ذلك بأنه توجد مجموعة من الكلمات لا يمكن تحليلها بهذا الشكل. وهذه الأسماء تقابل شبه قاعدة "كياسمين و"إبراهيم" إلخ.
والقاعدة وشبه القاعدة هن النواة المعجمية للكلمة الكتابية (أو المكون النواة) وبقية المكونات هي توسعات (أو مكونات موسعة)
ونتمثل الكلمة على شكل الجدول التالي:
تمثيل تقليدي
بالمكونات المباشرة
أمثلة |ــــــــــــــــــــــــــــــــــــــــــــــ الكلمة القصوى ـــــــــــــــــــــــــــــــــــــــ|
|ـــــــــــــــــــ الكلمة الدنياـــــــــــــــــــــــــ|
##زيادة سابقة # سابقة + { قاعدة أو شبه قاعدة } + لاحقة # زيادة داخلية##
## ل # ت +كْتُب +و #ه##
تمثيل يبرز وضوح النواة المعجمية مكون نواة
\ /
\ /
\ /
مكون موسع ـــــــــــــــــــــــــــــــــــــــ مكون موسع
وقصد في الجدول أعلاه بالفاصلة ## حدود الكلمة وتمكن التجربة من التفريق بين نوعية الحدود + (سابقة أو لاحقة) والحدود # (زيادة سابقة أو داخلية) والوقف الممكن، وفي غيبة سابقة أو لاحقة مربوطة بحدود + فإن القاعدة وشبه القاعدة لا يمكن أن تشكل شكلا أدنى مستقلا دونيا. وبالعكس يمكن من هذه الوجهة الاغتناء عن المزيد الداخلي واللاحق .
الوحدة المعجمية المكون النواة والمكون الموسع.
تتلخص بنية الوحدة المعجمية في العربية فيما يلي:
أولا الكلمة هي وحدة لسانية من مظاهرها البارزة الكلمة المكتوبة.
ثانيا الصياغم المكونة للوحدة ـ الكلمة والمسماة بمكونات الكلمة أي العلامات اللسانية الدونية ذات العلاقات السياقية المحدودة بالصياغم الأخرى المتضمنة في الوحدة المركبة المكونة للكلمة في شكلها المكتوب.
ثالثا هذه المكونات يمكن أن تنقسم إلى مكونات نواة ومكونات موسعة.
والمكونات الموسعة تتسم بعلاقة من نوعين:
I. علاقة الترتيب وتتجلى في مواقع المكونات على الخط الموجه الممثل للكلمة .
II. مجموعة علاقات التضام وموضوعها تزكية (أو لا) ملائمة المكونات فيما بينها، فمثلا /س+/ وهي علامة المستقبل ليست ملائمة إلا مع سوابق ولواحق جدول تصريف الفعل المضارع.
وكذلك تمكين التغيرات التي تمس عددا كبيرا من المكونات بحسب سياقها مثلا التغيرات في القاعدة الفعلية إذا كانت من الجذور الشاذة حسب العدد الجنس والمخاطب، ويجب أن يكون النحو الذي يتحكم في هذه العلاقات ملائما مع وظيفتي التأليف والتحليل أخذا بعين الاعتبار التباين الذي يؤدي بالتحليل إلى إنتاج الأشكال المحركة وبالتحليل إلى تحليل الكلمات غير المحركة .
رابعا الوحدة ـ الكلمة المعرفة بهذه الطريقة هي إذن موسومة بنيويا بما يلي:
أ بعلاقة الترتيب الضيق بين المكونات التي تشكل الوحدة وهذه العلاقة ممثلة صوريا ببنية شعاع مرتب.
ب بوجود "مكون نواة" مقابل لصنف معجمي (القاعدة) أي لوحدات غير معدودة ومجموعة "مكونات موسعة" تقابل حقول شعاع تمثيل الكلمة محينة بحروف وظيفية وكيفية وضمائر وهي غير معدودة.
وهذه النقطة الأخيرة تعني أنه يجب التمييز داخل مجموعة الكلمات المكتوبة بين:
الكلمات الشكل والتي تشمل النواة المعجمية
والكلمات ـ الشكل مثل : \ب ــ كم\ و\لــ ـــ أنَّـ ـــ كم\ والتي ليست لها نواة.
خامسا إن "المكون النواة" لا يقابل ضرورة وحدة معجمية. وفعلا بإمكان بعض المكونات الموسعة حين تربط بقاعدة اسمية أن تدخل في مسار معجمي. ويقال بأن مكونا موسعا أصبح معجميا (= مكون موسع معجمي) حين تكون الوحدة (مكون نواة ومكون موسع معجم) الناتجة عن ربطها بمكون نواة ما تشكل وحدة معجمية مستقلة.
وتكون الوحدة النواة مشكلة من :
من "مكون نواة" (ونقول بأن < وحدة معجمية = مكون نواة >) وهي حالة عناصر القواعد الفعلية أو القواعد الاسمية والتي لا تحمل مكونات موسعة معجمية ككلمة "النادر".
أو مجموعة وحدات معجمية = < مكون نواة،مكون نواة موسع معجمي > حيث يتضمن مكون النواة الموسع المعجمي أكثر من مكون وترتيبه المقطعي موسوم بنحو مكونات الكلمة مثلا "نادرة" جمعها " نوادر" وهي تكون وحدة معجمية مستقلة عن المثال السابق "نادر" وتحلل على الشكل التالي:
وحدة معجمية = < مكون نواة = \ناذر\،مكون نواة موسع مستقل = \ + أل\ >.
ويمكن صياغة الفرضية التي تقول بأن علاقة الترتيب بالمعنى الضيق مع وجود نواة معجمية تشكلان سمتين عموميتين للتعريف بالكلمة وتتجليان مباشرة في الكلمة المكتوبة. وكما لاحظنا في آخر الفقرة السابقة بأن مثل : \و # لكن # ه \ لا يمكن أن يمثل بواسطة شعاع تمثيل الكلمة وذلك أن انعدام النواة المعجمية في الكلمات يفسر عدم الملائمة هذه. والشعاع هو فعلا وسيلة تمثيل للكلمة ـ الشكل في سماته البنيوية عاليه.
المخصصات الصرفية التركيبية للقاعدة المعجمية.
وارتباطا بالقواعد في المعجم الخاص بالنظام تدبر المخصصات الصرفية التركيبية العلاقات بين الأخيرة والمكونات المنتمية للحقول الأخرى للشعاع أي العلاقات بين المكون النواة و المكونات الموسعة. ويتعلق الأمر بالمؤشرات الرمزية أو المصاغة باللغة الطبيعية والممثلة للعلاقات السياقية ذات الطبيعة الصرفية التركيبية أو الدلالية بين القواعد المعجمية وباقي مكونات الكلمة ـ الشكل.
والمخصصات الصرفية التركيبية هي حصرا مرتبطة بالقواعد المعجمية:
وتوقيفا فهي المعلومات الخاصة بآليات التضام والمتحكمة في العلاقات بين المكونات الموسعة وهي متضمنة في نحو المكونات للكلمة.
والمخصصات الخاصة بالعلاقة بين المكونات النواة والمكونات الموسعة يمكن أن تربط بالمكونات الأولى أو الثانية ولكن نربطها طبعا بالمكونات النواة نظرا لأن عددها معدود عكس المكونات الموسعة. ( وإذا رغبنا أن تكون المخصصات الصرفية التركيبية معدودة فيجب ربطها بالقواعد المعجمية أي بالمكونات النواة. وفعلا فإن العلاقات المكونات النواة ـــ> والمكونات الموسعة هي معدودة نظرا للقلة النسبية للمكونات الموسعة وهذا ليس وضع العلاقات بين المكونات الموسعةــــ> والمكونات النواة فإن المكونات النواة غير معدود).
خلاصة: رسيمة تنظيم المعجم المؤلل.
شيد المعجم على اعتبار أنه قاعدة معطيات علاقية والمعجم في إرهاصاته السابقة كان يتكون من نوعين من اللوائح أساسيتين:
أ / نوع يقابل جردا محدود العدد للمكونات (اللواحق السابقة والزيادات السابقة واللاحقة والداخلية) جمعت بسلسلة الحروف الأطول والتي نسميها سابق ولاحق القاعدة.
ب / نوع يقابل الجرد غير المعدود ويعني القواعد وشبه القواعد المجموعة في مداخل أساسية سميت تباعا بالجذور أو شبه الجذور.
وعناصر هذه اللوائح مسجلة على شكلين يقابلان بحسب حالات الكتابة المحركة وغير المحركة.
وبإزاء وحدات المعجم ربطت المعلومات المصورنة في نحو مكونات الكلمة والتي تسير العلاقات بين التضام (بواسطة المخصصات الصرفية التركيبية للقواعد) ومجموعة العلاقات السهمية الرابطة بين القواعد.
واتفاقا فإن المعجم المؤلل الذي يكون قاعدة المعارف المعنية هنا يفصل جذريا بين تنظم المعارف لدى الكائن البشري وبين اللوائح المقابلة للجرد المعدود (الوظيفيات والكيفيات) و اللوائح غير المعدودة (وحدات معجمية). وتكون المخصصات الصرفية التركيبية تعريفا مرتبطة بالوحدات المنتمية لهذا الجرد الأخير.
وبهدف تحديد علاقة بين القواعد المرتبطة بنفس المدخل في تنظيم المعجم الأساسي يجب التمييز بين مدخل الجذر و القواعد والتي ليست ممثلة بهذا الشكل والمسماة شبة القواعد والتي يجب أن تربط ليس بحذر وإنما بوحدة شبة حذر.
ويعكس المعجم المؤلل بهذا الشكل التقسيم الثنائي الأساسي للمعجم العربي.
فيما يلي الرسيمة الملخصة:
معجم الوحدات المعجمية
الجذور شبه الجذور
قواعد
اسمية
(+مخصصات القواعد الاسمية) قواعد
فعلية
(+ مخصصات القواعد الفعلية) شبه قواعد
اسمية
(+مخصصات القواعد الاسمية)
تعليقات:
إن القواعد مسجلة على شكل مضعف بحروف النطق محركة وغير محركة مصحوبة بمخصصات صرفية تركيبية مقابلة. وأشباه الجذور تقابل الأشكال الغير محركة لأشباه القواعد ولا تحمل طبعا أي مخصص. وخط القواعد في الجدول عاليه المقابلة لمداخل المعجم هي الجذور وأشباه الجذور وللمداخل الأساسية أو المداخل الممتازة والتي تتكل حولها القواعد.
هذه الرسيمة تمكن من تصور مختلف لأنواع السهام مثلا:
قاعدة "امرأة" وجمعها "نساء" ترتبطان بجذر مختلف.
القاعدة الاسمية "سفرجل" لها مدخل أساسي شبه جذر \س – ف – ر- ج- ل\ . وللحصول على جمعه \سفارج\ ممثلة في الجذر الرباعي \س- ف- ر-ج\ ووزن \فواعل\ يجب إذن وضع سهام انطلاقا من هذا الجذر في لائحة القواعد الاسمية حيث نجد \سفارج\. وهذا المسار الخلفي المعقد التنظيم للكلمات التي لا تمتلك عدد الأحرف الضرورية لتكوين جذر قديم في اللغة كما يبرهن عنه المثال التالي:
"فم" شبه الجذر \ف – م\ جمعه أفواه وجذره القياسي (باستقلالية من كل صيرورة تأصيلية مستقاة بالمقاربة مع اللغات السامية الأخرى وهي صيرورة غير معروفة للمعجميين العرب في القرون الوسطى) لا يمكن إلا أن تكون \ ف – و – ه\ وهي ما لا تعكسه المعاجم العربية القديمة أو الحديثة إلا بشكل غير مباشر.
وإن إدخال السهام يمكن من وضع علاقة ليس فحسب للكلمات المرتبطة بنفس المدخل الأساسي المقابل لجذر ولكن أيضا للكلمات المصففة تحت المداخل الأساسية المختلفة والتي يمكن أن تكون جذورا أو أشباه الجذور.
اختزال معالي وبالأعجمية DINAR MBC.
بإ شراف الأستاذ يوسف ديشي.
بإشراف الأساتذة عبد الفتاح برهام وسالم غزالي.
بإشراف الأستاذ محمد حسون.
بإشراف الأستاذ حجازي.
بإشراف الأستاذ عبد القادر الفاسي الفهري.
بإشراف الأستاذ ديترز.
تشكل مسألة الحركات وتشكيل الكلمة في العربية موضوعا رئيسيا في معالجة اللغة العربية ومعالجة تراكيب اللغة العربية تتخلف عن اللغات الغربية مثلا لوجوب الأخذ بعين الاعتبار بحقيقة هذه الوضعية المتميزة للغة العربية. ونصنف الكلمة المحركة إلى جزئية التحريك "مَدْخَل" وكاملة التحريك "مَدْخَلٌ" ونصف محركة "دخْل" ويكون التحريك إما لتسهيل القراءة في النصوص التراثية وإما لإزالة اللبس والغموض.
http://www.elda.fr
للزيادة عد ليوسف ديشي ، مقالة "نحو معجمية تصنيفية للغة العربية: الوحدات المعجمية البسيطة والجرد المعدود لمخصصات مجال الكلمة"، بالفرنسية، نشر بمجلة ميطا، كندا منشورات جامعة مونريال. عدد42 خريف 1997 صك 291-306
راجع للمزيد التقرير المتعلق بتصور لمركب ولمحلل صرفي للعربية بإشراف الأستاذ جون بيار دكلي بطلب من مديرية السياسة اللغوية التابعة لوزارة الخارجية الفرنسية. وباشتراك كل من جمال الدين كولوكلي و ومحمد زياده ويوسف ديشي...
وأيضا " نحو نموذج للتحليل الآلي للكلمة الغير محركة العربية"، لمحمد حسون ويوسف ديشي، 1989، ص: 92-158. ,اطروحة يوسف ديشي "الخط في تمثيل اللغة"، 1990.
سهولة الاستعمال تعد من الخصائص الضرورية والمطلوبة في مختلف المعالجات الآلية. ونجاح أي مشروع تأليل مرتبط بهذه الخصية المهمة.
كما سنرى لاحقا كان دافيد كوهن من السابقين لتحديد هذه الرسيمة.
الكلمة المخطوطة هي نفسها الكلمة المكتوبة وتختلف بالطبع عن الكلمة المنطوقة ذلك أن الكتابة العربية لا تحمل حروفها كل حركات النطق وقد تتشابه كلمتين كتابة وتختلفان معنى ونطقا عكس اللغات اللاتينية التي تكون الكلمة فيها مزيجا بين الصامت والصائت (الحركة).
راجع أطروحة يوسف ديشي. و"المنظومة المعرفية، المحاكاة والتعليم المسعف بالحاسوب لأشكال الأفعال العربية تحليلا وتأليفا" منشورات جامعة نيميج ص: 67-84،92-95، 1993.
راجع مقالة يوسف ديشي " نحو معجمية تصنيفية للعربية" م.س .
يميز النحاة العرب القدماء بين المصدرين، والمصدر إذا افتقد فعليته تحول إلى اسم عادي أما إذا احتفظ بها فيعامل معاملة الفعل.
أول مستعرب فرنسي قدم رسيمة للكلمة العربية كان دافيد كوهن في مقاله " محاولة لتحليل آلي للعربية" 19961، وأعيد نشره في كتابه دراسات لسانية سامية وعربية، موتون 1970. وارجع للمزيد إلى مقالة يوسف ديشي " نجو تصنيفية معجمية للكلمة العربية" م.س.
لتعريف مدقق بهذه المصطلحات ارجع إلى معجم التعريفات صفحات 265-275 من كتاب يوسف ديشي ومحمد حسون "نحو أنموذج للتحليل الآلي للكلمة المكتوبة غير المحركة في العربية"، 1989 وكذالك الفقرة العاشرة من أطروحة يوسف ديشي.م.س.
راجع يوسف ديشي ومحمد حسون مقالة " المحاكاة نموذج اللسانية لتعليم العربية المسعف بالحاسوب " أعمال1 مجموعة البحث حول تحليل الصرفي الحاسوبي للعربية، منشورات المجلس الدولي للغة الفرنسية1989. وكذا أطروحة يوسف ديشي.
راجع مشروع "سامية تطور وآفاق"، بالإنجليزية، منشورات جامعة نيمينج،1987 مجلة معالجات العربية عدد2ن ص: 1-26.
راجع أطروحة محمد حسون "تطوير معجم للمعالجة الآلية للعربية في مختلف سياقات التطبيق" جامعة ليون 1987.
مراجع:
Abu Al-Chay Najim(1988), Un système expert pour l’analyse et la production des verbes arabes dans une perspective d’Enseignement Assisté par Ordinateur,
أطروحة لنيل شهادة الدكتورة جامعة ليون فرنسا. 1988.
Cohen David (1961/70), « Essai d’une analyse automatique de l’arabe », 1961(T.A. informations), in D. Cohen, Etudes de linguistique sémitique et arabe, Paris : Mouton,1970.
Desclés J.-P. et al. (1983) : H. Abaab, J.-P. Desclés, J. Dichy, D.E. Kouloughli, M.S. Ziadah, Conception d’un synthétiseur et d’un analyseur morphologique de l’arabe, en vue d’une utilisation en Enseignement assisté par ordinateur,
تقرير بإشراف الأستاذ جان بيار دكلي لصالح وزارة الخارجية الفرنسية مديرية السياسة اللغوية.
Dichy J. & Hassoun M. ناشرون, Simulation de modèles linguistiques et enseignement assisté par ordinateur de l’arabe,
أعمال سامية 1، منشورات المجلس الدولي للغة الفرنسية باريس، 1989.
Dichy J. « The Samia Research Program, Year Four, Progress and prospects »,
مجلة Processing Arabic Report عدد2 منشورات الجامعة الكاثوليكية بنيميج هولندة ص: 1-26.
Dichy J. « Vers un modèle d’analyse automatique du mot graphique non -vocalisé en arabe », in Dichy & Hassoun, 1989, pp :92-158.
Dichy J. Dichy J. « Pour une léxicographie de l’arabe : l’unité eéxicale simple et l’inventaire fini des spécificateurs du domaine du mot »
,مجلة ميطا عدد 42 خريف 1997 كيبك كندا منشورات جامعة مونريال ص:291-306
Dichy J.l’écriture dans la représentation de la langue : la lettre et le mot en arabe,
أطروحة الدولة جامعة ليون 1990.
Ditters E.ناشر.(1986-1995),مجلة Processing Arabic Report,
أعدد 1/1986 و2/1987 و3/1988 و4/1989 و5/1990 و6-7/1993 و9/1995. منشورات معهد لغات وثقافات الشرق الأوسط الجامعة الكاثوليكية نيميج هولندة.
Hassoun M. Conception d’un dictionnaire pour le traitement automatique de l’arabe dans différents contextes d’application,
أطروحة الدولة جامعة ليون فرنسا،
.
تعليق