प्राकृतिक भाषा संसाधन (एनएलपी) कम्प्यूटर विज्ञान, कृत्रिम बुद्धि तथा भाषा विज्ञान का एक क्षेत्र है तथा मानव (प्राकृतिक) भाषाओं और कंप्यूटर के अन्तःक्रियाओं से सम्बन्धित है।[1] प्राकृतिक भाषा संसाधन, कम्प्यूटर के द्वारा, मानव द्वारा कही या लिखी भाषा से अर्थ निकालने का काम करता है। इसके अलावा प्राकृतिक भाषा का सृजन (लिखित या वाचित रूप में) करने के लिए भी एनएलपी प्रयुक्त होता है।

Thumb
स्वचालित ऑनलाइन सहायक आजकल बहुत उपयोगी सिद्ध हो रहे हैं।

चुनौती

कम्प्यूटर द्वारा प्राकृतिक भाषा संसाधन करने में प्रमुख कठिनाइयाँ हैं-

  1. संदिग्धता : मानव भाषाओं में विभिन्न भाषिक स्तरों पर संदिग्धता पाई जाती है, जैसे- शब्द स्तर पर एक शब्द का एक से अधिक शब्दवर्गों में प्रयोग, जैसे - 'सोना' शब्द संज्ञा भी है और क्रिया भी।
  2. शब्दों के आरम्भ और अन्त का सही पता लगाने की समस्या - बोली गयी भाषा में प्रायः शब्दों की सीमा का ठीक -ठीक निर्धारण करना कठिन होता है। कुछ लिखित भाषाओं (जैसे मन्दारिन) में शब्दों के बीच जगह नहीं छोड़ी जाती जिससे शब्दों की सीमा का ठीक से पता करना और उन्हें अलग करना कठिन है।
  3. गलत आंकड़े - इसके अलावा शब्दों के टंकण की गलती, गलत वर्तनी, गलत उच्चारण, ओसीआर से प्राप्त टेक्स्ट में गलती आदि से भी सही शब्दों का पता नहीं चल पाता।

प्रक्रिया

  1. मार्फोलोजिक विश्लेषण
  2. सिन्टैक्टिकल विश्लेषण
  3. सिमैन्टिक विश्लेषण
  4. प्रैग्मटिक विश्लेषण - सन्दर्भ आदि का ध्यान रखना
  5. वाक्य की योजना बनाना
  6. वाक्यनिर्माण

प्रमुख अनुप्रयोग

कुछ महत्वपूर्ण प्राकृतिक भाषा संसाधन ये हैं-  

  1. मशीनी अनुवाद
  2. पाठ सरलीकरण
  3. सूचना निष्कर्षण (इन्फार्मेशन इक्सट्रैक्सन)
  4. सारांशीकरण (summerization)
  5. प्रश्नों के उत्तर देना
  6. संगणकीय भाषाविज्ञान
  7. डाटा खनन (डेटा माइनिंग)
  8. प्राकृतिक भाषा को समझना
  9. अनचाहे मेल (स्पैम) के विरुद्ध संघर्ष

इन्हें भी देखें

बाहरी कड़ियाँ

सन्दर्भ

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.