From Wikipedia, the free encyclopedia
Soundex on ingliskeelse häälduse põhjal nimede indekseerimise foneetiline algoritm. Selle eesmärgiks on kodeerida häälduselt samasugused nimed sama koodiga.[1] Algoritmis arvestatakse peamiselt konsonante. Vokaale kodeeritakse vaid juhul, kui tegu on sõna esimese häälikuga. Soundex on üks populaarsemaid foneetilisi algoritme (osaliselt seetõttu, et seda kasutatakse tuntud andmebaasides nagu IBM Db2, PostgreSQL,[2] MySQL,[3] SQLite,[4] Ingres, MS SQL Server,[5] Oracle[6] ja SAP ASE[7]).
Artiklit tuleb tõlkida ja kohandada! |
Soundexi leiutasid Robert C. Russell ja Margaret King Odell[8] ning nad patenteerisid selle 1918. aastal[9] ja 1922. aastal[10]. Selle variatsiooni, Ameerika Soundexi, kasutati 1930. aastatel Ameerika Ühendriikide rahvaloendustel aastatel 1890–1920.
Ameerika Soundex kood nimele koosneb ühest tähest, millele järgneb kolm numbrit: täht viitab nime esitähele ning numbrit ülejäänud kaashäälikuid. Samas kohas hääldatavatel kaashäälikutel on sama number. Näiteks huulhäälikud nagu /b/, /f/, /p/ ja /v/ märgitakse numbriga 1.
Nime Soundexisse kodeerimise algoritm on järgmine:
Selle algoritmiga on nii "Robert" kui ka "Rupert" kodeeritud kui "R163", samas "Rubin"-i kood on "R150". Nii "Ashcraft" kui ka "Ashcroft" on "A261". "Tymczak" kood on "T522", mitte "T520" (tähed 'z' ja 'k' nimes on kodeeritud eraldi, sest nende vahel on täishäälik "a"). "Pfister" on "P236", mitte "P123" (esimesed kaks tähte on sama numbriga ja seega kodeeritud kui 'P').
Sarnane algoritm "Reverse Soundex" ehk pöördsoundex jätab tähena alles nime viimase tähe
NYSIIS algoritm (ingl New York State Identification and Intelligence System) loodi 1970. aastal Soundexi edaiarendusena.
Daitch–Mokotoff Soundexi (D–M Soundex) lõi 1985.aastal genealoog Gary Mokotoff ning seda arendas hiljem edasi geneaoloog Randy Daitch, kuna originaalne, Russelli versioon ei sobinud juudinimedele, millel olid saksa- või venepärased nimed (nt Moskowitz vs Moskovitz või Levine vs Lewin). D-M Soundexit kutsutakse mõnikord juudi soundexiks või ida-euroopa soundexiks[11], kuigi autorid selliseid nimesid ei soovita kasutada. D-M Soundex võib ühele nimele tagastada kuni 32 erinevad foneetilist kodeeringut. D-M Soundexi kodeeringud Russelli Soundexist keerulisemad, täies ulatuses numbrilised ja jäävad vahemikku 100000–999999.
Lawrence Philips leiutas 1990. aastal samamoodi Soudexi puudujääkide tõttu uue foneetilise algoritmi, millele pani nimeks Metaphone. 2000. aastal täiendas Philips oma algoritmi ja nimetas selle Double Metaphone'ks ehk topeltmetaphoneks.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.