řazení textů založené na pořadí v abecedě From Wikipedia, the free encyclopedia
Abecední řazení je způsob neutrálního řazení textových řetězců v seznamech, slovnících, encyklopediích apod., založený na tradičním uspořádání příslušné abecedy. Pořadí písmen v abecedě zpravidla nemá žádný logický význam, jedná se pouze o ustálený zvyk. V různých jazycích se může toto uspořádání lišit, zvláště pro specifické prvky příslušného jazyka (znaky s diakritikou apod.).
Základní princip řazení – postupné porovnávání řazených řetězců po jednotlivých znacích, přičemž o seřazení rozhoduje vždy první nalezený rozdíl, se označuje jako lexikografické řazení.
Abecední řazení se používá ve slovnících, telefonních seznamech a mnoha dalších rozsáhlých souborech dat, neboť umožňuje efektivní hledání: pro vyhledání položky v n-prvkovém uspořádaném seznamu je potřeba pouze logaritmický počet kroků; srovnejte jednoduchost hledání v telefonním seznamu podle jména, podle kterého je seznam seřazen, oproti hledání podle telefonního čísla, při kterém je nutno seznam projít celý položku po položce.
Základní forma latinky (např. anglická abeceda) obsahuje 26 písmen, která jsou řazena následujícím způsobem:
Toto řazení se odráží v uspořádání znaků v počítačových znakových kódováních, jako např. ASCII, EBCDIC, Unicode.
Používaná posloupnost znaků je následkem historického vývoje, není pro ni žádný další logický důvod. (Oproti tomu si lze představit např. systém podle fonetických významů hlásek, řadící samohlásky před souhlásky, seskupující hlásky podle znělosti nebo místa tvoření apod.)
Pro češtinu upravuje abecední řazení norma ČSN 97 6030 z roku 1994 (která nahradila starší a složitější ČSN 01 0181 z roku 1977, přičemž aplikovatelnost normy rozšířila i na počítačové řazení). Podle této normy se řadí celá slova (případně skupiny slov), přičemž za slovo se považuje řetězec písmen, číslic, znaku apostrof a spojovník či nezlomitelná mezera (s výjimkou situace, kdy jsou tyto dva znaky na začátku či konci řetězce); počet mezer oddělujících jednotlivá slova není podstatný.
Základem řazení je opět abeceda, tentokrát i s českými znaky. Při řazení se však nejprve nepřihlíží ke všem diakritickým znaménkům, v prvním průchodu se bere ohled jen na následující standardizovanou českou abecedu:
Ostatní znaky s diakritikou (Ď, Ň, Ť a samohlásky s diakritikou) se v této první fázi řadí stejně jako verze bez diakritiky (např. D, N, T). Toto snížení významnosti Ď, Ť a Ň souvisí s tím, že nejčastěji se píší tyto hlásky znakem bez háčku a změkčení se vyznačuje následující samohláskou (Ě nebo I, Í, resp. ě, i, í).
Pouze pokud aplikací této primární řadicí schopnosti nelze rozhodnout mezi řazením několika slov, bere se ohled na ostatní diakritická znaménka. Sekundární řadicí platnost určuje vzájemné pořadí jinak stejných slov lišících se pouze diakritickými znaménky:
Obecné pravidlo pro sekundární řadicí platnost, umožňující řadit i znaky z jiných abeced, je definováno pomocí tří kroků: nejprve se porovnává umístění diakritického znaménka vzhledem k znaku; to určuje následující pořadí:
Pokud pomocí tohoto pravidla nelze rozhodnout, ve druhém kroku se jednoduché diakritické znaménko (např. čárka) řadí před dvojitá diakritická znaménka (např. přehláska) a ta se řadí před trojitá diakritická znaménka (tři tečky). Pokud ani toto pravidlo nerozhodne, definuje norma pořadí jednotlivých druhů diakritických znamének:
Pokud se v textu používají indexy či exponenty, přihlíží se k nim jen sekundárně, obdobně jako by se jednalo o diakritická znaménka před či za písmenem.
Při řazení se vůbec nebere ohled na malá a velká písmena (slova lišící se jen velikostí písmen mohou být v libovolném vzájemném pořadí), což je zjednodušení oproti předchozí normě (která malá písmena řadila před velká).
Číslice se řadí za všemi písmeny, přičemž se řadí podle své číselné hodnoty, apostrof je ještě za číslicemi.
Spojovník a nezlomitelná mezera se naopak řadí před celou abecedu, tedy před A.
Všechny jazyky používající latinku mají abecední pořadí v zásadě stejné (odvozené z výše uvedeného základního pořadí), ale v detailech existují rozdíly, působené zejména spřežkami a diakritiky, s nimiž různé jazyky při řazení zacházejí jinak. V některých latinkách se také navíc používají zvláštní znaky jako æ, þ, ß a další.
V Německu platí dva standardy řazení používající se v různých kontextech, od nichž se ještě liší standard rakouský. Hlavní odlišnost je v zacházení s přehláskami. V německých slovnících se např. o a ö primárně neliší, zatímco v telefonním seznamu má ö platnost jako oe (takže např. Göthe je v abecedě před Goldmann). V Rakousku pak naopak na přehlásce záleží a ö se vždy řadí až za o. Podobně má v Německu stejnou platnost ss a ß, zatímco v Rakousku následuje ß až po s.
Samostatnou platnost mají polské znaky ą, ć, ę, ś, po z pak následuje ź a nakonec ż. Háčky (např. nad českými jmény) se naopak nezohledňují. Spřežky se rovněž nezohledňují (patrné je to zejména u ch).
Zvláštní pořadí mají digrafy cs, gy, ly, ny, sz, ty a zs (takže např. sekvence cs následuje až po cy a cz). Oproti tomu ch se jako dvojznak nebere. U samohlásek primárně nezáleží na délce, ale záleží na přehlásce, takže např. ó je vždy řazeno před ö.
Každé standardizované hláskové písmo má své závazné pořadí znaků. Abecedy příbuzné latince, jako alfabeta nebo různé verze cyrilice, mají v řazení určité společné rysy (např. na začátku je vždy A, shoduje se pořadí hlásek ve střední pasáži), ale v jiných ohledech se liší. Níže je uvedeno několik příkladů:
Základních 24 znaků řecké abecedy má toto pořadí:
Ruská azbuka má 30 základních znaků, navíc 2 znaky s diakritikou a jeden digraf, který paradoxně předchází znaku, který je jeho součástí. S řeckou abecedou má společné např. umístění [z] a sekvenci hlásek [u–f–ch]. Na konci jsou řazeny speciální znaky jako „tvrdé E“ (Э) nebo změkčující samohlásky.
Srbská cyrilice má řazení značně podobné té ruské, navíc má vložené speciální znaky odpovídající v latince písmenům ć, đ nebo spřežkám dž, lj, nj apod. Poslední hláskou srbské abecedy je [š].
Současná gruzínština používá písmo mchedruli, které má 33 používaných znaků v následujícím pořadí. I zde první písmeno reprezentuje hlásku [a].
U znakových písem (např. čínské znaky či japonské kandži) nemůže existovat zapamatovatelné uspořádání všech znaků písma. Řazení proto funguje na mírně odlišném principu: u znaku se určí základní složka a počet tahů znaku. Znaky jsou primárně setříděny podle kořene, v rámci jednoho kořene se řadí vzestupně podle počtu tahů. Např. znak 媽 se řadí pod svůj kořen 女 a v něm mezi třináctitahové znaky.
Tato metoda je evidentně složitější než abecední řazení latinky, proto se jako alternativní metoda často používá také ryze abecední řazení podle výslovnosti příslušného znaku: např. slovo Tokio zapsané v kanji (東京) se dá řadit podle posloupnosti abecedních znaků popisujících jeho výslovnost to-u-ki-jo-u (とうきょう). Pro použití této alternativy je však potřeba znát výslovnost znaků, což použitelnost této metody omezuje.
Při používání počítačů se abecední řazení objevuje v mnoha úlohách, řazení patří k jedné ze základních schopností databází. S řazením však je (a hlavně v minulosti bylo) spojeno mnoho praktických problémů. Zvláště starší programy nejsou schopny dodržovat jednotlivé národní zvyklosti a normy a jsou schopny řadit pouze anglické texty, resp. texty řadí přímo podle hodnot znaků v příslušném kódování (ordinální řazení). Pro české texty to znamená hlavně ignorování zvláštního postavení českého písmene Ch, které je v takovém případě řazeno ke znaku C (mezi sekvenci cg a ci), a řazení znaků s diakritikou až za všechna ostatní písmena abecedy a navíc v přeházeném pořadí.
V moderních programech je již většina národních zvyklostí (a požadavků příslušných norem) respektována, ovšem pro správné chování programu je nutno v konfiguraci nastavit správný jazyk a národní prostředí.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.