Remove ads
З Вікіпедії, вільної енциклопедії
Індексува́ння — присвоєння документу набору ключових слів або кодів, які слугують вказівником змісту документа і використовуються для його пошуку. Слід не плутати поняття «індексування» та "індексацію, оскільки ці поняття різні. Індексування — процес перекладу змісту документів із природної мови на штучну інформаційно-пошукову мову (ІПМ), в результаті чого створюється пошуковий образ документа (ПОД) і пошуковий образ запиту (ПОЗ). У такий спосіб відбувається згортання інформації, що знаходиться в документі, і перетворення її на ІПМ у вигляді індексу, рубрики,коду (класифікаційною мовою) або дескриптора, ключового слова (дескрипторною мовою)[1].
Індексацією називається система і сукупність позначень, прийнята для документної класифікації. Вона виконує кілька основних функцій: закріплює логічну структуру класифікації, виступає засобом зв'язку між діленнями таблиць, рубриками АПП, відділами на книжкових полицях при систематичній розстановці, засобом запису результатів систематизації в бібліографічних записах, у самих виданнях тощо[2].
Індексування — це процес вираження змісту документа або запиту на інформаційно-пошуковій мові. Він являє собою не опис документа як фізичного об'єкта (створення бібліографічного опису, визначення виду, носія інформації тощо), а є його інтелектуальним аналізом, тобто розкриває його зміст за допомогою систем класифікації, тезаурусів, словників предметних рубрик, авторитетних файлів[3]. Суть індексування полягає в тому, щоб передати зміст документів, а в разі необхідності й деякі формальні ознаки у вигляді коротких закодованих повідомлень, так званих пошукових образів документів (ПОД). Наявність ПОД забезпечує подальший пошук документів завдяки зіставленню ПОД із пошуковим приписом. Це завдання присвоєння документам (їх копіям, графічним образам, електронним файлам документів), що дозволяють швидко класифікувати, сортувати та шукати інформацію в архіві, що міститься в документах, в архіві без перегляду самого документа. Найпростішою формою індексування є картотека у звичайній бібліотеці, яка дозволяє знайти потрібну книгу без фізичного доступу до самого носія[4].
Відомі два способи індексування:
Результатом індексування документа є його пошуковий образ (ПОД), що виражає основний зміст документа, тобто, який являє собою набір індексів (лексичних одиниць) ІПМ, що відповідають основним предметам і аспектам змісту документа[6].
Сьогодні існує багато інформаційно-пошукових мов (ІПМ), що різняться за своїм призначенням та принципами побудови. Інформаційно-пошукові мови, що базуються на різноманітних класифікаціях — це ІПМ класифікаційного типу. Вони призначені для індексування документів та інформаційних запитів на основі індексів класифікаційних систем — ББК, УДК, ДКД, ГРНТІ тощо. Для того, щоб якісно здійснити процес індексування, необхідно зрозуміти сутність ІПМ. Індексування здійснюється на основі інформаційно-пошукових мов. ІПМ є основним елементом логіко-семантичного апарата інформаційно-пошукових систем (ІПС). Інформаційно-пошукова мова (ІПМ) — це спеціалізована штучна мова, призначена для передачі змісту і формальних ознак документів, а також інформаційних запитів пошуку потрібних документів. Необхідність створення штучної мови для виразу смислового змісту інформації з метою її пошуку обумовлена тим, що природна мова, тобто мова, за допомогою якої ми спілкуємось, має такі властивості, котрі заперечують її використання для запису та пошуку інформації. До таких властивостей головним чином відноситься неоднозначність та багатозначність термінів природної мови. Труднощі використання природної мови, як ІПМ, обумовлені ще тим, що в ІПС використовуються як вхідні документи не повні тексти, а реферати, анотації, бібліографічні описи, котрі є результатом згортання змісту документів[7].
Вимоги до ІПМ:
Залежно від ІПМ, яка використовується в тому чи іншому пошуковому масиві, документи підлягають обробці за такими видами індексування:
Систематизація — це впорядкування набору інформації (зібраної, обробленої та проаналізованої) за певною структурою. Процес систематизації результатів наукового економічного дослідження полягає у приведенні зібраних і опрацьованих (проаналізованих) даних в послідовний науково-аргументований виклад. Існують такі види систематизації: кодифікація, інкорпорація і консолідація.
Кодифікація — спосіб удосконалення, систематизації нормативних актів, законодавства. Під час кодифікації проводиться: — змістова переробка (усунення розбіжностей і суперечностей, скасування застарілих норм) пов'язаної спільним предметом регулювання, групи юридичних норм та об'єднання їх в єдиному нормативно-правовому акті. Кодифікованими документами вважаються кодекси, статути, положення. В результаті кодифікації видається єдиний, логічно і юридично цільний, нормативно-правовий акт. Кодифікація зазвичай має офіційний характер і проводитися правотворчим органом.
Інкорпорація — це найпростіша форма впорядкування нормативно-правових актів, яка полягає в об'єднанні групи чинних нормативно-правових актів в одному збірнику за певним критерієм (хронологічним, тематичним тощо) без зміни їхнього змісту[6].
Систематизація забезпечує розмежування та подальше об'єднання не окремих предметів, як це відбувається при класифікації, а їх груп і класів.
Предметизація — це визначення предметної рубрики, яка відповідає змісту, формі та призначенню документа. Предметизаційна мова призначена для індексування документів та інформаційних запитів за допомогою предметних рубрик. В основу предметизаційної мови покладено алфавітний перелік предметних рубрик, що представляють уніфіковані короткі формулювання теми природною мовою[9]. Одним із найважливіших процесів індексування є предметизація документів. Він традиційно складається з декількох операцій:
Координатне індексування — це індексування, що передбачає багато аспектне висловлювання основного смислового змісту інформаційного запиту безліччю ключових слів або дескрипторів. Для координатного індексування важливо уміння знаходити інформативне слово — слово або словосполучення в тексті документу або запиту, що несуть істотне смислове навантаження. Ключове слово — інформативне слово, приведене до стандартної лексичної форми і використане для координатного індексування. Дескриптор — лексична одиниця, виражена інформативним словом або кодом і є ім'ям класу синонімічних або близьких за змістом ключових слів. Дескрипторна мова служить для координатного, або як його ще називають, «вільного» індексування документів та запитів за допомогою дескрипторів або ключових слів. В основі дескрипторних ІПМ лежить алфавітний перелік лексичних одиниць. Вони дозволяють досить детально та багатоаспектно розкривати зміст документів. Дескриптори та ключові слова легко доповнюються, поновлюються, оскільки в алфавітний перелік можна включити будь-яку лексичну одиницю, необхідну для індексування. Крім того в автоматизовану технологію широко ввійшли до вжитку мова бібліографічного опису, об'єктноознакові та фактографічні пошукові мови. У практиці бібліотек використовується два методи координатного індексування документів:
Вільне індексування по зручності використання і доступності перевершує індексування з контролем лексики. Але автоматизація процесів обробки, пошуку документів. більше орієнтована на роботу зі строго формалізованою інформацією, де всі пошукові ознаки і поняття представляються в однаковій формі. Об'єктами індексування в бібліотеках можуть виступати різні види документів. Об'єкт індексування встановлюється на етапі складання бібліографічного запису (БЗ) документу, що дозволяє його ідентифікувати, розкрити його склад і зміст з метою його бібліографічного пошуку. Відповідно до вимог стандартів у методику координатного індексування входять наступні взаємозалежні етапи:
Правила Процес індексування включає наступні правила:
Правила індексування добре погоджені між собою і забезпечують тісний взаємозв'язок багатьох технологічних і лінгвістичних рішень, прийнятих при побудові й використанні основних елементів системи в ряду «комплектування — програмне забезпечення — індексування інформації — процес проведення пошуку».
Для індексування документів застосовуються поля «Номери, індекси, коди», поля приміток та поля предметного доступу. Кожний документ розглядається з таких аспектів:
Також визначаються:
Процес індексування можна представити у вигляді наступних операцій. Переглядаючи документ, визначають його основну тему, а також порушені в ньому другорядні питання, що можуть становити інтерес для конкретної групи користувачів. Потім складається уявна анотація на документ, яка включає ключові слова, що характеризують його зміст. Далі ключові слова замінюються лексичними одиницями інформаційно-пошукових мов (ІПМ): класифікаційними індексами та предметними рубриками. У результаті ми отримуємо образ документа інформаційно-пошуковою мовою[2].
Якість індексування визначається двома показниками:
Глибина індексування характеризує повноту розкриття змісту документа в привласненому йому пошуковому виді. Глибину індексування можна приблизно оцінити числом слів ІПМ, включених індикатором до пошукового образу. Детальне індексування характеризує точне відображення змісту документа в пошуковому виді. Точність відображення визначається смисловою близькістю ключових слів, включених до уявної анотації, слів ІПН, що утворили пошуковий образ[1].
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.