محرك البحث ماهر

تقليص
X
 
  • الوقت
  • عرض
إلغاء تحديد الكل
مشاركات جديدة
  • الدكتور داود داود
    عضو منتسب
    • May 2010
    • 6

    محرك البحث ماهر

    محرك البحث ماهر هو محرك لفهرسة و استرجاع الوثائق العربية، و يتميز هذا المحرك بقدرته الفائقة على الربط بين الأشكال المختلفة التي قد تظهر بها المفردة العربية نتيجة للتنوع والغنى الصرفي والاشتقاقي وما يتبعها من تأثيرات إملائية و إعرابية.
    فمثلا هذه الصيغ المختلفة: تستدعي، سيستدعي, واستدعيت, استدعى, استدعوه, استدعت, استدعي, يستدعي:يستدعي، تستدعيه اضافة الى واستدعاء, استدعائه, استدعاؤه, استدعاء, الاستدعاء ترتبط بمفهوم واحد.
    لذلك يصبح من شروط البحث بدقة في اللغة العربية قدرة محرك البحث على الربط بين الأشكال الظاهرية ،و في المقابل فأن فشل محرك البحث أو عدم قدرته على الربط بين هذه الأشكال المختلفة يؤدي حتما الى قلة الدقة و حجم استرجاع المعلومات.
    إن أهم ميزة لمحرك البحث ماهر قدرته على التعامل مع الخصائص اللغوية للغة العربية وإزالة الإختلافات الظاهرية بين هذه المفردات والقيام بالفهرسة و الاسترجاع بناء على ذلك.
    ولتوضيح هذه الفكرة فإن البحث عن كلمة "دعاء" في صحيح البخاري باستخدام محرك البحث ماهر، يتم استرجاع 433 حديثا شريفا لها علاقة بهذا المفهوم ، في المقابل فإن البحث عن نفس الكلمة بالطريقة التقليدية (التطابق) تؤدي إلى استرجاع 14 حديثا فقط .
    هنا يصبح الفرق واضحا، مما يؤدي إلى حرمان الباحثين (في حال استخدام طرق غير ملائمة) من معلومات قيمة قد يكون بحاجة لها ولكن حرم منها لاستخدامه طرق بحث لا تلائم طبيعة اللغة العربية.
    أرجو من الأخوة تجريبه على الموقع التالي:
  • s___s

    #2
    أهلا وسهلا بك يا د. داود أولا في موقع الجمعية، بما أنه هذه أول مداخلة لك
    وشكرا جزيلا على هذه المعلومة عن هذا الموقع والذي به إضافة لغوية جميلة من خصائص اللغة العربية والتي لا ينتبه لها من لم يدرس اللغة العربية وفق مفاهيمها وخصائصها التي تتفرّد بها
    أهلا وسهلا ومرحبا

    تعليق

    • s___s

      #3
      لو تختبر البرنامج بالكلمة التالية صهب، ثم الكلمة التالية صهيب ولاحظ الفرق بين النتيجتين، أتمنى أن تكون هذه الملاحظة مفيدة لك في تطوير البرنامج نحو الأفضل، وربما يكون نقاشنا تحت العنوان والرابط التالي مفيد في جوانب أخرى


      أول محلل صرفي للعربية بإشراف المنظمة العربية للثقافة والعلوم



      ما رأيكم دام فضلكم؟

      تعليق

      • الدكتور داود داود
        عضو منتسب
        • May 2010
        • 6

        #4
        ماهر لايستخدم الجذر كأساس للفهرسة والبحث لأسباب معروفة، كما لا يعتمد التحليل الصرفي بطريقته الكلاسيكية.
        ماهر يعمل على مستويين :
        Level 1 : Morphological variations linked to the internal structure of words, by virtue of which a term can appear in different forms (prefixes, suffixes, infixes, spelling variations). For instance: تستدعيه, تستدعي, سيستدعي, واستدعيت, استدعى, استدعوه, استدعت, استدعي, يستدعي, يستدعى are reduced to “استدعى” which is considered to be identical for all these morphologically and conceptually related terms.



        Level 2: MAHER tries to expand the above conflation class to accommodate semantically related derivatives: واستدعاء, استدعائه, استدعاؤه, استدعاء, الاستدعاء are also reduced to “استدعى” .


        عندي سؤال، ما هي سرعة المحلل الصرفي الذي تحدثت عن؟ مثل كم من الوقت يحتاج لمعالجة صفحة (خمسون سطرا)؟

        تعليق

        • Aratype
          مشرف
          • Jul 2007
          • 1629

          #5
          بارك الله فيك، هذا موضوع مهم بلاشك، وخاصة أنَّ أهل هذا المحرك بيننا

          سؤال أولي، هل يعمل محرك البحث مع نظام "جملة" joomla ؟

          تعليق

          • s___s

            #6
            المشاركة الأصلية بواسطة الدكتور داود داود
            ماهر لايستخدم الجذر كأساس للفهرسة والبحث لأسباب معروفة، كما لا يعتمد التحليل الصرفي بطريقته الكلاسيكية.
            ماهر يعمل على مستويين :
            level 1 : Morphological variations linked to the internal structure of words, by virtue of which a term can appear in different forms (prefixes, suffixes, infixes, spelling variations). For instance: تستدعيه, تستدعي, سيستدعي, واستدعيت, استدعى, استدعوه, استدعت, استدعي, يستدعي, يستدعى are reduced to “استدعى” which is considered to be identical for all these morphologically and conceptually related terms.



            level 2: Maher tries to expand the above conflation class to accommodate semantically related derivatives: واستدعاء, استدعائه, استدعاؤه, استدعاء, الاستدعاء are also reduced to “استدعى” .



            عندي سؤال، ما هي سرعة المحلل الصرفي الذي تحدثت عن؟ مثل كم من الوقت يحتاج لمعالجة صفحة (خمسون سطرا)؟
            بالنسبة لأي شيء عن مواصفات المحلّل الصرفي الذي تكلمنا عنه في الموضوع الآخر، فأظن حامد السحلي يستطيع الإجابة عن سؤالك


            ولكن عفوا د. داود هل يمكن أن تحدد ما هي الأسباب المعروفة التي تكلمت عنها بالنسبة للجذر والفهرسة؟ فأنا مثلا لا أعرف ما عنيت بها؟!!! مع الشكر الجزيل مقدما

            ما رأيكم دام فضلكم؟

            تعليق

            • حامد السحلي
              إعراب e3rab.com
              • Nov 2006
              • 1374

              #7
              السلام عليكم ورحمة الله

              أعتذر أني لم أجرب المحرك بما يكفي واكتفيت فقط ببعض الأمثلة التي تمت مناقشتها هنا أو في المحلل الصرفي
              وللمقارنة طلبت من المحرك البحث عن "ضرب زوجة" ثم "ضرب زوجه" "ضرب امرأته" ولم يتمكن المحرك من إحضار نص عن ضرب الزوجة أو المرأة إلا في الحالة الأخيرة أي أن المحرك لا يدرس العلاقة بين الكلمات المدخلة وإنما ينشئ بحثا لكل كلمة ثم يقاطعها
              أتمنى من الدكتور داوود شرحا ولو مجملا عن آلية عمل المحرك كي يمكننا إجراء مقارنات صحيحة

              أما بالنسبة لسؤال الدكتور أسامة فالمحرك موضوع على صفحة موقع جملة أما مدى ارتباطه بجملة وقدرته على جلب fetch قاعدة بياناتها أو صفحاتها فهذا ما لا أعلمه ولكن هناك برمجيات حرة قوية ومتعددة لهذه الغاية يمكنها فهرسة موقع أو مواقع على أساس مدخلات معينة وببساطة يمكنك أن تبحث في سورس فورغ عن spider
              إعراب نحو حوسبة العربية
              http://e3rab.com/moodle
              المهتمين بحوسبة العربية
              http://e3rab.com/moodle/mod/data/view.php?id=11
              المدونات العربية الحرة
              http://aracorpus.e3rab.com

              تعليق

              • الدكتور داود داود
                عضو منتسب
                • May 2010
                • 6

                #8
                المشاركة الأصلية بواسطة s___s
                بالنسبة لأي شيء عن مواصفات المحلّل الصرفي الذي تكلمنا عنه في الموضوع الآخر، فأظن حامد السحلي يستطيع الإجابة عن سؤالك


                ولكن عفوا د. داود هل يمكن أن تحدد ما هي الأسباب المعروفة التي تكلمت عنها بالنسبة للجذر والفهرسة؟ فأنا مثلا لا أعرف ما عنيت بها؟!!! مع الشكر الجزيل مقدما

                ما رأيكم دام فضلكم؟
                هناك نقاش كبير حول هذا استخدام الجذور في البحث والاسترجاع، وشخصيا أنا أميل لعدم استخدامها للأسباب التالية:
                1- قصد و قصيدة مختلفتين دلاليا، و لكن لهم نفس الجذر
                2- التعامل مع الأسماء الجامدة فاستخراج جذر "بوصلة" يؤدي إلى نتائج خاطئة حيث يربطها مع الكلمات التي لها الجذر "وصل"
                3- عملية استخراج الجذر من المفردة بشكل عام بها نسبة خطأ عالية نسبيا
                4- عملية استخراج الجذر مكلفة حاسوبيا (وقت المعالجة"

                بشكل عام استخدام الجذر سيزيد من الاسترجاع Recall و سيقلل من الدقة Precision

                تعليق

                • الدكتور داود داود
                  عضو منتسب
                  • May 2010
                  • 6

                  #9
                  المشاركة الأصلية بواسطة Aratype
                  بارك الله فيك، هذا موضوع مهم بلاشك، وخاصة أنَّ أهل هذا المحرك بيننا

                  سؤال أولي، هل يعمل محرك البحث مع نظام "جملة" joomla ؟
                  بالتأكيد

                  تعليق

                  • الدكتور داود داود
                    عضو منتسب
                    • May 2010
                    • 6

                    #10
                    المشاركة الأصلية بواسطة حامد السحلي
                    السلام عليكم ورحمة الله

                    أعتذر أني لم أجرب المحرك بما يكفي واكتفيت فقط ببعض الأمثلة التي تمت مناقشتها هنا أو في المحلل الصرفي
                    وللمقارنة طلبت من المحرك البحث عن "ضرب زوجة" ثم "ضرب زوجه" "ضرب امرأته" ولم يتمكن المحرك من إحضار نص عن ضرب الزوجة أو المرأة إلا في الحالة الأخيرة أي أن المحرك لا يدرس العلاقة بين الكلمات المدخلة وإنما ينشئ بحثا لكل كلمة ثم يقاطعها
                    أتمنى من الدكتور داوود شرحا ولو مجملا عن آلية عمل المحرك كي يمكننا إجراء مقارنات صحيحة

                    أما بالنسبة لسؤال الدكتور أسامة فالمحرك موضوع على صفحة موقع جملة أما مدى ارتباطه بجملة وقدرته على جلب fetch قاعدة بياناتها أو صفحاتها فهذا ما لا أعلمه ولكن هناك برمجيات حرة قوية ومتعددة لهذه الغاية يمكنها فهرسة موقع أو مواقع على أساس مدخلات معينة وببساطة يمكنك أن تبحث في سورس فورغ عن spider
                    ماهر يعمل كأي نظام حاسوبي لاسترجاع المعلومات، من هنا لا أرى أي مشكلة في المثال الذي أوردته.
                    والآن دعني أورد بعض المقاييس الكمية التي قد توضح كفاءة ماهر في مجال الفهرسة :indexing
                    1- معامل الربط(Number of words per conflation class )
                    2- معامل الضغط (Index Compression)
                    فعند فهرسة مكنزcorpus يحتوي على 70000 كلمة مختلفة حقق ماهر النتائج التالية:
                    معامل الربط : 7.5
                    معامل الضغط : 0.87
                    وهي نتيجة ممتازة جدا إذا علمت أن light 10 stemmer حقق 2، 0.5 بالترتيب
                    عودة للمحلل الصرفي كيف لي أن أجربه، حيث أن لي اهتمامات بهذا الموضوع، فقد قمت ببناء واحد أثناء عملي في مشروع Universal Networking Language في اليابان.

                    تعليق

                    • حامد السحلي
                      إعراب e3rab.com
                      • Nov 2006
                      • 1374

                      #11
                      شكرا للدكتور داود

                      هنا تجد النسخة الأخيرة من محلل الخليل
                      وهنا تجد عرضا للمحلل التابع لقطرب

                      وأستغل هذه الفرصة لأشجعك على إدراج بياناتك في قاعدة بيانات المهتمين بحوسبة العربية هنا
                      إعراب نحو حوسبة العربية
                      http://e3rab.com/moodle
                      المهتمين بحوسبة العربية
                      http://e3rab.com/moodle/mod/data/view.php?id=11
                      المدونات العربية الحرة
                      http://aracorpus.e3rab.com

                      تعليق

                      • s___s

                        #12
                        المشاركة الأصلية بواسطة الدكتور داود داود
                        هناك نقاش كبير حول هذا استخدام الجذور في البحث والاسترجاع، وشخصيا أنا أميل لعدم استخدامها للأسباب التالية:

                        1- قصد و قصيدة مختلفتين دلاليا، و لكن لهم نفس الجذر
                        2- التعامل مع الأسماء الجامدة فاستخراج جذر "بوصلة" يؤدي إلى نتائج خاطئة حيث يربطها مع الكلمات التي لها الجذر "وصل"
                        3- عملية استخراج الجذر من المفردة بشكل عام بها نسبة خطأ عالية نسبيا
                        4- عملية استخراج الجذر مكلفة حاسوبيا (وقت المعالجة"
                        بشكل عام استخدام الجذر سيزيد من الاسترجاع Recall و سيقلل من الدقة Precision
                        شكرا جزيلا، إن كان كذلك، إذن لو أردنا تعريف طريقة عمل ماهر، هي في أنه اعتمد على مفهوم اللواصق واللواحق ،وهذا المفهوم يشمل اللغات غير العربية كذلك، وكما تبين أنه لا يغطي كل احتياجات اللغة العربية كما لو كان مبني على الجذر واشتقاقاته.

                        بالمناسبة في النصف الثاني من التسعينات من القرن الماضي كانت مؤسسة الإتصالات الإماراتية، قد وفرت خدمة البحّار على الشابكة (الإنترنت)
                        http://portal.ahram.org.eg/Right.asp?ID=130

                        وهي النسخة المعرّبة وفق احتياجات اللغة العربية المبنيّة على الجذر واشتقاقاته لما كان يعرف ألتا فيستا بالتعاون مع شركة أبتك، وكان أحد القائمين على المشروع زميلي في الدراسة الله يذكره بالخير (يوسف يغمور) وهو كذلك من نفس مدينة د. عبدالرحمن السليمان سبحان الله، كما هو حال استاذي د. تمّام عَدِيّ واستاذ استاذي د. نِزار قصّاب


                        ما رأيكم دام فضلكم؟
                        التعديل الأخير تم بواسطة ضيف; الساعة 05-17-2010, 10:09 AM.

                        تعليق

                        • الدكتور داود داود
                          عضو منتسب
                          • May 2010
                          • 6

                          #13
                          المشاركة الأصلية بواسطة s___s
                          شكرا جزيلا، إن كان كذلك، إذن لو أردنا تعريف طريقة عمل ماهر، هي في أنه اعتمد على مفهوم اللواصق واللواحق ،وهذا المفهوم يشمل اللغات غير العربية كذلك، وكما تبين أنه لا يغطي كل احتياجات اللغة العربية كما لو كان مبني على الجذر واشتقاقاته.

                          بالمناسبة في النصف الثاني من التسعينات من القرن الماضي كانت مؤسسة الإتصالات الإماراتية، قد وفرت خدمة البحّار على الشابكة (الإنترنت)
                          http://portal.ahram.org.eg/Right.asp?ID=130

                          وهي النسخة المعرّبة وفق احتياجات اللغة العربية المبنيّة على الجذر واشتقاقاته لما كان يعرف ألتا فيستا بالتعاون مع شركة أبتك، وكان أحد القائمين على المشروع زميلي في الدراسة الله يذكره بالخير (يوسف يغمور) وهو كذلك من نفس مدينة د. عبدالرحمن السليمان سبحان الله، كما هو حال استاذي د. تمّام عَدِيّ واستاذ استاذي د. نِزار قصّاب


                          ما رأيكم دام فضلكم؟
                          عزيزي أبو صالح
                          دعني أوضح التالي:
                          محرك البحث ماهر قادرعلى التعامل مع اللواصق واللواحق، إضافة إلى التغيرات الإملائية كما يحدث في الهمزة، ويستطيع الربط بين المشتقات ذات العلاقة الدلالية، كما يستطيع التعامل مع المفاهيم المركبة Multi-word concepts، وحسب علمي لا يوجد محرك بحث بمثل هذه المواصفات ويحقق النتائج التي ذكرتها سابقا(ربما الإدريسي ولكن مشكلته الرئيسية أنه يعتمد على الجذر)

                          تعليق

                          • s___s

                            #14
                            المشاركة الأصلية بواسطة الدكتور داود داود
                            عزيزي أبو صالح
                            دعني أوضح التالي:
                            محرك البحث ماهر قادرعلى التعامل مع اللواصق واللواحق، إضافة إلى التغيرات الإملائية كما يحدث في الهمزة، ويستطيع الربط بين المشتقات ذات العلاقة الدلالية، كما يستطيع التعامل مع المفاهيم المركبة multi-word concepts، وحسب علمي لا يوجد محرك بحث بمثل هذه المواصفات ويحقق النتائج التي ذكرتها سابقا(ربما الإدريسي ولكن مشكلته الرئيسية أنه يعتمد على الجذر)
                            من طريقة شرحك لا أظن تقصد المعنى الدلالي كما هو مفهومه باللغة العربية،

                            المعجم الدلالي والمصطلح الدلالي والمعنى الدلالي مسألة مطروحة للنقاش
                            <p align="right"><font face="Verdana, Geneva, Arial, Helvetica, sans-serif" size="5"><strong><font color="#660000">من المعروف والمثبّت علميا أن ليس هناك أمة خدمت البشرية جمعاء وقدمت لها في ارساء قواعد وبناء علم اللسانيات/اللغويات كما قدمها علماء اللغة العربية<br


                            ولكن أظن تقصد الترادف في المعنى كما هو مفهومه في اللغات الأخرى، أليس كذلك؟!


                            من جهة أخرى أنا لا أظن الجذر مشكلة في أي حال من الأحوال إن لم يكن هو واشتقاقاته مفتاح الحلول، ولا أدري أي إدريسي تقصد فهناك أكثر من تطبيق له نفس الاسم، وإن كان يستخدم الجذر والاشتقاق كأساس بالعكس هذه احدى ميزات الإدريسي إن كان عمله مبني عليها، ولكن عيب الإدريسي "د. نبيل علي (صخر)"إن كان هناك أي عيب به من وجهة نظري هو في طريقة تعامله مع الجذر واشتقاقاته، حيث أنه لم يكن وفق مفاهيم اللغة العربية بشكل كامل

                            ما رأيكم دام فضلكم؟
                            التعديل الأخير تم بواسطة ضيف; الساعة 05-18-2010, 06:12 AM.

                            تعليق

                            يعمل...