ഒപ്റ്റിക്കൽ കാരക്റ്റർ റെക്കഗ്നിഷൻ
From Wikipedia, the free encyclopedia
സ്കാൻ ചെയ്ത ഡോക്യുമെന്റുകളിൽ നിന്ന് അച്ചടിച്ചതും കൈയ്യെഴുത്തുള്ളതുമായ അക്ഷരങ്ങൾ യാന്ത്രികമായി വേർതിരിച്ചെടുത്ത് മെഷീൻ എൻകോഡഡ് ടെക്സ്റ്റിലേക്ക് മാറ്റിയെടുക്കുന്നതിനുള്ള കമ്പ്യൂട്ടർ സങ്കേതമാണ് ഒപ്റ്റിക്കൽ ക്യാരക്റ്റർ റെക്കഗ്നിഷൻ അഥവാ ഒ.സി.ആർ. കടലാസ് വിവരസ്ത്രോതസ്സുകളായ ലിഖിത പ്രമാണങ്ങൾ, കച്ചവട രശീതികൾ, കത്തുകൾ അല്ലെങ്കിൽ മറ്റു അച്ചടിച്ച രേഖകളെ കമ്പ്യൂട്ടറിന് സ്വീകരിക്കാനുതകുന്ന വിധത്തിലുള്ള രൂപത്തിലാക്കാൻ ഈ സങ്കേതം വ്യാപകമായി ഉപയോഗിക്കുന്നു. അച്ചടിച്ച ഉള്ളടക്കങ്ങൾ ഡിജിറ്റൈസ് ചെയ്യുന്നതിനായുള്ള സാധാരണ ഉപയോഗിക്കുന്ന സമ്പ്രദായമാണിത്. ഇങ്ങനെ ചെയ്യുന്നതുകൊണ്ട് അവയിലെ വിവരങ്ങൾ ഇലക്ടോണിക്സ് സങ്കേതത്തിലൂടെ തിരയാനും, ഒതുങ്ങിയ രീതിയിൽ സംഭരിച്ച് സൂക്ഷിക്കാനും, ഓൺലൈനായി വായിക്കാനും, മെഷീൻ ട്രാൻസിലേഷൻ, ടെക്സ്റ്റ് ടു സ്പീച്ച്, ടെക്സ്റ്റ് മൈനിങ്ങ് തുടങ്ങിയ യാന്ത്രിക പ്രവർത്തികൾക്ക് ഉപയോഗിക്കുകയും ചെയ്യുന്നു. പാറ്റേൺ റെക്കഗ്നിഷൻ, കൃത്രിമബുദ്ധി (artificial intelligence), കമ്പ്യൂട്ടർ വിഷൻ എന്നിവ ഒ.സി.ആറിന്റെ ഗവേഷണ മേഖലയിലുൾപ്പെടുന്നു.[1]
ആദ്യകാല വേർഷനുകളിലെല്ലാം ചിത്രങ്ങളിലെ ഓരോ അക്ഷരങ്ങൾക്കനുസരിച്ചും പ്രത്യേകം പ്രോഗ്രാമുകൾ എഴുതണമായിരുന്നു. കൂടാതെ ഒരു ഫോണ്ട് സെറ്റ് മാത്രമേ ഒരു സമയം പ്രവർത്തിച്ചിരുന്നുള്ളൂ.മിക്ക ഫോണ്ടുകളെയും കൃത്യതയോടെ തിരിച്ചറിയാനുള്ള ഇൻന്റലിജെൻസ് സിസ്റ്റം ഇപ്പോൾ സാധാരണമായി ലഭ്യമാണ്. യഥാർഥ സ്കാൻ ചെയ്ത പേജിനോട് കിടപിടിയ്ക്കുന്ന തരത്തിൽ, ചിത്രങ്ങളും കോളങ്ങളും മറ്റു ടെക്സ്റ്റ് ഇതരരൂപങ്ങളും പുനർനിർമ്മിക്കാൻ തക്ക ശേഷിയുള്ള ഒ.സി.ആർ സങ്കേതങ്ങൾ ഇന്ന് ലഭ്യമാണ്.
ആദ്യകാല പതിപ്പുകൾ ഓരോ കാരക്ടരിന്റെയും ചിത്രങ്ങൾ ഉപയോഗിച്ച് പരിശീലിപ്പിക്കേണ്ടതുണ്ട്, കൂടാതെ ഒരു സമയം ഒരു ഫോണ്ടിൽ പ്രവർത്തിക്കുകയും വേണം. മിക്ക ഫോണ്ടുകൾക്കും ഉയർന്ന അളവിലുള്ള തിരിച്ചറിയൽ കൃത്യത ഉൽപ്പാദിപ്പിക്കാൻ കഴിവുള്ള വിപുലമായ സംവിധാനങ്ങൾ ഇപ്പോൾ സാധാരണമാണ്, കൂടാതെ വൈവിധ്യമാർന്ന ഡിജിറ്റൽ ഇമേജ് ഫയൽ ഫോർമാറ്റ് ഇൻപുട്ടുകൾക്കുള്ള പിന്തുണയും ഉണ്ട്.[2] ചിത്രങ്ങൾ, കോളങ്ങൾ, മറ്റ് നോൺ-ടെക്സ്ച്വൽ കമ്പോണന്റ് എന്നിവയുൾപ്പെടെ ഒറിജിനൽ പേജിനെ ഏകദേശം കണക്കാക്കുന്ന ഫോർമാറ്റ് ചെയ്ത ഔട്ട്പുട്ട് പുനർനിർമ്മിക്കാൻ ചില സിസ്റ്റങ്ങൾക്ക് കഴിയും.