Loading AI tools
стаття-список у проєкті Вікімедіа З Вікіпедії, вільної енциклопедії
Набори даних використовуються для дослідження машинного навчання, посилання на них використовуються в наукових академічних статтях. Набори даних є невід’ємною частиною галузі машинного навчання. Значні досягнення в цій галузі можуть бути результатом прогресу в алгоритмах навчання (наприклад, deep learning), комп'ютерного обладнання та, що не так очевидно, доступності високоякісних наборів навчальних даних.[1] Високоякісні марковані навчальні набори даних для алгоритмів машинного керованого навчання і напівкероване навчання зазвичай важко та дорого створити через велику кількість часу, необхідного для позначення даних. Хоча їх не потрібно позначати, високоякісні набори даних для напівкерованого навчання також може бути складним і дорогим у створенні. Набори даних орієнтовані, здебільшого, на вирішення задач класифікації та розпізнавання і містять оцифровані зображення, відео, тексти, сигнали, звуки тощо.[2][3][4][5]
Ці набори даних складаються переважно із зображень або відео використовуються для таких завдань, як виявляння об'єктів, розпізнавання обличчя та класифікація за кількома мітками[en].
У комп'ютерному баченні зображення облич широко використовуються для розробки систем які розпізнають обличчя, займаються обнаруженням обляч та багатьох інших проектів.
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Aff-Wild | 298 відео з 200 особами, ~1 250 000 анотованих вручну зображень: анотовані з точки зору афекту розмірів (валентність-збудження); обстановка в дикій природі; база кольорів; різні дозволи (середнє = 640x360) | виявлені обличчя, орієнтири обличчя та анотації валентно-збудження | Приблизно 1 250 000 зображень з анотаціями вручну | відео (візуальні + аудіомодальності) | розпізнавання афекту (оцінка валентності-збудження) | 2017 | CVPR[6]
IJCV[7] |
D.Kollias et al. |
Aff-Wild2 | 558 відео з 458 особами, ~2 800 000 зображень, анотованих вручну: анотовані за і) категоричним афектом (7 основних виразів: нейтральний, щастя, смуток, здивування, страх, огида, гнів); ii) вимірний афект (валентність-збудження); iii) одиниці дії (AUs 1,2,4,6,12,15,20,25); обстановка в дикій природі; база кольорів; різні дозволи (середнє = 1030x630) | виявлені обличчя, виявлені та вирівняні обличчя та анотації | Приблизно 2 800 000 зображень з анотаціями вручну | відео (візуальні + аудіомодальності) | розпізнавання афекту (оцінка валентності-збудження, базова класифікація виразів, виявлення одиниць дії) | 2019 | BMVC[8]
FG[9] |
D.Kollias et al. |
Face Recognition Technology (FERET)[en] | 11338 зображень 1199 осіб у різних позиціях і в різний час. | Немає. | 11,338 | Зображення | Класифікація, розпізнавання обличчя | 2003 | [10][11] | United States Department of Defense |
Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) | 7356 відео та аудіозаписів 24 професійних акторів. По 8 емоцій у двох інтенсивності. | Файли, позначені виразом. Оцінки перевірки сприйняття надані 319 оцінювачами. | 7,356 | Відео, звукові файли | Класифікація, розпізнавання обличчя, розпізнавання голосу | 2018 | [12][13] | S.R. Livingstone and F.A. Russo |
SCFace | Кольорові зображення облич під різними кутами. | Розташування виділених рис обличчя. Наведені координати об'єктів. | 4,160 | Зображення, текст | Класифікація, розпізнавання обличчя | 2011 | [14][15] | M. Grgic et al. |
Yale Face Database | Обличчя 15 осіб у 11 різних виразах. | Мітки виразів. | 165 | Зображення | Розпізнавання обличчя | 1997 | [16][17] | J. Yang et al. |
Cohn-Kanade AU-Coded Expression Database | Велика база даних зображень з мітками для виразів. | Відстеження певних рис обличчя. | 500+ послідовностей | Зображення, текст | Аналіз виразу обличчя | 2000 | [18][19] |
T. Kanade et al. |
JAFFE Facial Expression Database | 213 зображень із 7 виразами обличчя (6 основних виразів обличчя + 1 нейтральний), створених 10 японськими моделями. | Зображення обрізаються до області обличчя. Включає дані семантичних оцінок на етикетках емоцій. | 213 | Зображення, текст | Розпізнавання виразу обличчя | 1998 | [20][21] | Lyons, Kamachi, Gyoba |
FaceScrub | Зображення публічних діячів, видалені з пошуку зображень. | Назва та м/ж анотація. | 107,818 | Зображення, текст | Розпізнавання обличчя | 2014 | [22][23] | H. Ng et al. |
BioID Face Database | Зображення облич із позначеними положеннями очей. | Встановіть положення очей вручну. | 1521 | Зображення, текст | Розпізнавання обличчя | 2001 | [24][25] | BioID |
Skin Segmentation Dataset | Довільно відібрані значення кольорів із зображень облич. | B, G, R, значення витягнуті. | 245,057 | Текст | Сегментація, класифікація | 2012 | [26][27] | R. Bhatt. |
Bosphorus | База даних 3D зображень обличчя. | 34 одиниці дії та 6 виразів, позначених; Позначено 24 орієнтири на обличчі. | 4652 | Зображення, текст | Розпізнавання облич, класифікація | 2008 | [28][29] | A Savran et al. |
UOY 3D-Face | нейтральне обличчя, 5 виразів: гнів, щастя, смуток, очі закриті, брови підняті. | маркування. | 5250 | Зображення, текст | Розпізнавання облич, класифікація | 2004 | [30][31] | University of York[en] |
CASIA | Вирази: гнів, посмішка, сміх, здивування, закриті очі. | Немає. | 4624 |
Зображення, текст |
Розпізнавання облич, класифікація | 2007 | [32][33] | Institute of Automation, Chinese Academy of Sciences[en] |
CASIA | Вирази: Злість, Відраза, Страх, Щастя, Смуток, Подив. | Немає. | 480 | Відео з анотованим видимим спектром і ближнім інфрачервоним випромінюванням знімає зі швидкістю 25 кадрів в секунду | Розпізнавання облич, класифікація | 2011 | [34] | Zhao, G. et al. |
BU-3DFE | нейтральне обличчя і 6 виразів: гнів, щастя, смуток, здивування, огида, страх (4 рівні). Вилучено 3D-зображення. | Немає. | 2500 | Зображення, текст | Розпізнавання виразу обличчя, класифікація | 2006 | [35] | Binghamton University |
Face Recognition Grand Challenge[en] Dataset | До 22 зразків для кожного предмета. Вирази: гнів, щастя, смуток, здивування, огида, роздутий. 3D дані. | Немає. | 4007 | Зображення, текст | Розпізнавання облич, класифікація | 2004 | [36][37] | National Institute of Standards and Technology |
Gavabdb | До 61 зразка для кожного предмета. Вирази обличчя нейтральні, посмішка, фронтальний акцентований сміх, фронтальний довільний жест. 3D зображення. | Немає. | 549 | Зображення, текст | Розпізнавання облич, класифікація | 2008 | [38][39] | King Juan Carlos University[en] |
3D-RMA | До 100 предметів, вирази переважно нейтральні. Також кілька поз. | Немає. | 9971 | Зображення, текст | Розпізнавання облич, класифікація | 2004 | [40][41] | Royal Military Academy (Belgium) |
SoF | 112 осіб (66 чоловіків і 46 жінок) носять окуляри за різних умов освітлення. | Набір синтетичних фільтрів (розмиття, оклюзії, шуми та постеризація) різного рівня складності. | 42 592 (2 662 оригінальне зображення × 16 синтетичних зображень) | Зображення, файл Mat | Класифікація за статтю, розпізнавання облич, розпізнавання обличчя, оцінка віку та виявлення окулярів | 2017 | [42][43] | Afifi, M. et al. |
IMDB-WIKI | IMDB і Вікіпедія зображення обличчя з мітками статі та віку. | Немає | 523,051 | Зображення | Гендерна класифікація, розпізнавання обличчя, розпізнавання обличчя, оцінка віку | 2015 | [44] | R. Rothe, R. Timofte, L. V. Gool |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
TV Human Interaction Dataset | Відео з 20 різних телевізійних шоу для прогнозування соціальних дій: рукостискання, п'ять, обійми, поцілунок. | Немає. | 6,766 відеокліпів | відеокліп | Прогноз дії | 2013 | [45] | Patron-Perez, A. et al. |
Berkeley Multimodal Human Action Database (MHAD) | Записи однієї особи, яка виконує 12 дій | Попередня обробка MoCap | 660 зразків дій | 8 Phase Space Motion Capture, 2 стереокамери, 4 чотирикамери, 6 акселерометрів, 4 мікрофони | Класифікація дій | 2013 | [46] | Ofli, F. et al. |
THUMOS Dataset | Великий набір відео даних для класифікації дій | Дії класифіковані та позначені. | 45 млн кадрів відео | Відео, зображення, текст | Класифікація, виявлення дії | 2013 | [47][48] | Y. Jiang et al. |
MEXAction2 | Набір відеоданих для локалізації дії та виявлення | Дії класифіковані та позначені. | 1000 | Відео | Виявлення дії | 2014 | [49] | Stoian et al. |
Назва | Опис | Обробка | Розмыр | Формат | Задачи | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Visual Genome | Зображення та їх опис | 108,000 | Зображення, текст | Підписи до зображень | 2016 | [50] | R. Krishna et al. | |
Berkeley 3-D Object Dataset | 849 зображень, зроблених у 75 різних сценах. Позначено близько 50 різних класів об'єктів. | Обмежувальні рамки та маркування об'єктів. | 849 | Марковані зображення, текст | Розпізнавання об'єктів | 2014 | [51][52] | A. Janoch et al. |
Berkeley Segmentation Data Set and Benchmarks 500 (BSDS500) | 500 природних зображень, чітко розділених на розрізнені потяги, підмножини перевірки та тестування + код порівняльного аналізу. На основі BSDS300. | Кожне зображення сегментовано в середньому за п'ятьма різними предметами. | 500 | Сегментовані зображення | Виявлення контурів та ієрархічна сегментація зображення | 2011 | [53] | University of California, Berkeley |
Microsoft Common Objects in Context (COCO) | складні побутові сцени звичайних предметів у їх природному контексті. | Виділення, маркування та класифікація об'єктів на 91 тип об'єкта. | 2,500,000 | Марковані зображення, текст | Розпізнавання об'єктів | 2015 | [54][55][56] | T. Lin et al. |
SUN Database | Дуже велика база даних розпізнавання сцен і об'єктів. | Місця та предмети позначаються. Об'єкти сегментовані. | 131,067 | Зображення, текст | Розпізнавання об'єктів, розпізнавання сцени | 2014 | [57][58] | J. Xiao et al. |
ImageNet[en] | Labeled object image database, used in the ImageNet Large Scale Visual Recognition Challenge[en] | Позначені об'єкти, обмежувальні рамки, описові слова, функції SIFT | 14,197,122 | Зображення, текст | Розпізнавання об'єктів, розпізнавання сцени | 2009 (2014) | [55][59][60] | J. Deng et al. |
Open Images | Великий набір зображень із ліцензією CC BY 2.0 з мітками на рівні зображення та обмежуючими рамками, що охоплюють тисячі класів. | Мітки на рівні зображення, обмежувальні рамки | 9,178,275 | Зображення, текст | Класифікація, розпізнавання об'єктів | 2017 | [61] | |
TV News Channel Commercial Detection Dataset | Телевізійна реклама та випуск новин. | Функції аудіо та відео, отримані з фотографій. | 129,685 | Текст | Кластеризація, класифікація | 2015 | [62][63] | P. Guha et al. |
Statlog (Image Segmentation) Dataset | Примірники були відібрані випадковим чином з бази даних із 7 зовнішніх зображень і сегментовані вручну, щоб створити класифікацію для кожного пікселя. | Розраховано багато функцій. | 2310 | Текст | Класифікація | 1990 | [64] | University of Massachusetts[en] |
Caltech 101[en] | Зображення предметів. | Позначено детальні контури об'єкта. | 9146 | Зображення | Класифікація, розпізнавання об'єктів. | 2003 | [65][66] | F. Li et al. |
Caltech-256 | Великий набір зображень для класифікації об'єктів. | Зображення розбиті на категорії та відсортовані вручну. | 30,607 | Зображення, текст | Класифікація, виявлення об'єктів | 2007 | [67][68] | G. Griffin et al. |
SIFT10M Dataset | Функції SIFT набору даних Caltech-256. | Розширене вилучення функцій SIFT.. | 11,164,866 | Текст | Класифікація, виявлення об'єктів | 2016 | [69] | X. Fu et al. |
LabelMe | Коментовані зображення сцен. | Окреслені об'єкти. | 187,240 | Зображення, текст | Класифікація, виявлення об'єктів | 2005 | [70] | MIT Computer Science and Artificial Intelligence Laboratory |
Cityscapes Dataset | Стерео-відеосекції, записані у вуличних сценах, з анотаціями на рівні пікселів. Метадані також включені. | Сегментація та маркування на рівні пікселів | 25,000 | Зображення, текст | Класифікація, виявлення об'єктів | 2016 | [71] | Daimler AG et al. |
PASCAL VOC Dataset | Велика кількість зображень для завдань класифікації. | Маркування, обмежувальна рамка в комплекті | 500,000 | Зображення, текст | Класифікація, виявлення об'єктів | 2010 | [72][73] | M. Everingham et al. |
CIFAR-10[en] Dataset | Багато маленьких зображень з низькою роздільною здатністю 10 класів об'єктів. | Класи позначені, створені розділи навчальних наборів. | 60,000 | Зображення | Класифікація | 2009 | [60][74] | A. Krizhevsky et al. |
CIFAR-100 Dataset | Як і CIFAR-10, вище, але надано 100 класів об'єктів. | Класи позначені, створені розділи навчальних наборів. | 60,000 | Зображення | Класифікація | 2009 | [60][74] | A. Krizhevsky et al. |
CINIC-10 Dataset | Єдиний внесок CIFAR-10 і Imagenet з 10 класами і 3 розділами. Більше за CIFAR-10. | Класи позначені, навчання, перевірка, створені розділи тестових наборів. | 270,000 | Зображення | Класифікація | 2018 | [75] | Luke N. Darlow, Elliot J. Crowley, Antreas Antoniou, Amos J. Storkey |
Fashion-MNIST | База даних модних товарів, схожа на MNIST | Класи позначені, створені розділи навчальних наборів. | 60,000 | Зображення | Класифікація | 2017 | [76] | Zalando SE |
notMNIST | Деякі загальнодоступні шрифти та витягнуті з них гліфи, щоб зробити набір даних подібним до MNIST. Існує 10 класів, з літерами A-J, взятими з різних шрифтів.
Deyaki zahalʹnodostupni |
Класи позначені, створені розділи навчальних наборів. | 500,000 | Зображення | Класифікація | 2011 | [77] | Yaroslav Bulatov |
German Traffic Sign Detection Benchmark Dataset | Зображення з транспортних засобів дорожніх знаків на німецьких дорогах. Ці знаки відповідають стандартам ООН і тому такі ж, як і в інших країнах. | Знаки з маркуванням вручну | 900 | Зображення | Класифікація | 2013 | [78][79] | S Houben et al. |
KITTI Vision Benchmark Dataset | Автономні транспортні засоби, що рухалися містом середнього розміру, фіксували зображення різних районів за допомогою камер і лазерних сканерів. | Багато тестів, отриманих з даних. | >100 GB of data | Зображення, текст | Класифікація, виявлення об'єктів | 2012 | [80][81][82] | A Geiger et al. |
Linnaeus 5 dataset | Зображення 5 класів предметів. | Класи позначені, створені розділи навчальних наборів. | 8000 | Зображення | Класифікація | 2017 | [83] | Chaladze & Kalatozishvili |
FieldSAFE | Мультимодальний набір даних для виявлення перешкод у сільському господарстві, включаючи стереокамеру, тепловізійну камеру, веб-камеру, 360-градусну камеру, лідар, радар і точну локалізацію. | Класи, позначені географічно. | >400 GB of data | Зображення та тривимірні хмари точок | Класифікація, виявлення об'єктів, локалізація об'єктів | 2017 | [84] | M. Kragh et al. |
11K Hands | 11 076 зображень рук (1600 x 1200 пікселів) 190 суб'єктів різного віку від 18 до 75 років для розпізнавання статі та біометричної ідентифікації. | Немає | 11,076 hand images | Зображення та файли етикеток (.mat, .txt і .csv). | Розпізнавання статі та біометрична ідентифікація | 2017 | [85] | M Afifi |
CORe50 | Спеціально розроблена для безперервного/довічного навчання та розпізнавання об'єктів, це колекція з понад 500 відео (30 кадрів в секунду) із 50 домашніми об'єктами, які належать до 10 різних категорій. | Позначені класи, розділи навчальних наборів створені на основі 3-х шляхового тесту для кількох запусків. | 164,866 RBG-D images | зображення (.png або .pkl)
та файли етикеток (.pkl, .txt, .tsv). |
Класифікація, розпізнавання об'єктів | 2017 | [86] | V. Lomonaco and D. Maltoni |
OpenLORIS-Object | Набір даних Lifelong/Continual Robotic Vision (OpenLORIS-Object), зібраний реальними роботами, встановленими з кількома датчиками високої роздільної здатності, включає колекцію з 121 екземпляра об'єктів (1-а версія набору даних, 40 категорій предметів повсякденної потреби в 20 сценах). У наборі даних ретельно враховано 4 фактори середовища для різних сцен, включаючи освітлення, оклюзію, розмір у пікселях об'єкта та безлад, і чітко визначає рівні складності кожного фактора. | Позначені класи, розділи набору для навчання/перевірки/тестування, створених за допомогою сценаріїв тесту. | 1 106 424 зображення RBG-D | зображення (.png і .pkl)
та файли етикеток (.pkl). |
Класифікація, розпізнавання об'єктів протягом усього життя, робототехнічне бачення | 2019 | [87] | Q. She et al. |
THz and thermal video data set | Цей мультиспектральний набір даних включає терагерцові, теплові, візуальні, ближні інфрачервоні та тривимірні відео об'єктів, прихованих під одягом людей. | Надаються таблиці 3D пошуку, які дозволяють проектувати зображення на тривимірні хмари точок. | More than 20 videos. The duration of each video is about 85 seconds (about 345 frames). | AP2J | Експерименти з виявленням прихованих об'єктів | 2019 | [88][89] | Alexei A. Morozov and Olga S. Sushkova |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Artificial Characters Dataset | Штучно згенеровані дані, що описують структуру 10 великих англійських літер. | Координати намальованих ліній задані як цілі числа. Різні інші особливості. | 6000 | Текст | Розпізнавання рукописного тексту, класифікація | 1992 | [90] | H. Guvenir et al. |
Letter Dataset | Верхні друковані літери. | З усіх зображень витягується 17 функцій. | 20,000 | Текст | OCR, класифікація | 1991 | [91][92] | D. Slate et al. |
CASIA-HWDB | База даних рукописних китайських символів офлайн. 3755 класів у наборі символів GB 2312[en]. | Зображення в сірому кольорі з фоновими пікселями, позначені як 255. | 1,172,907 | Зображення, текст | Розпізнавання рукописного тексту, класифікація | 2009 | [93] | CASIA |
CASIA-OLHWDB | База даних рукописних китайських ієрогліфів онлайн, зібрана за допомогою ручки Anoto на папері. 3755 класів у наборі символів GB 2312[en]. | Надає послідовності координат штрихів. | 1,174,364 | Зображення, текст | Розпізнавання рукописного тексту, класифікація | 2009 | [93][94] | CASIA |
Character Trajectories Dataset | Марковані зразки траєкторій кінчика пера для людей, які пишуть прості символи. | 3-dimensional pen tip velocity trajectory matrix for each sample | 2858 | Текст | Розпізнавання рукописного тексту, класифікація | 2008 | [95][96] | B. Williams |
Chars74K Dataset | Розпізнавання символів у природних зображеннях символів, які використовуються як англійською, так і каннадською | Тривимірна матриця траєкторій швидкості кінчика пера для кожного зразка | 74,107 | Розпізнавання символів, розпізнавання рукописного тексту, OCR, класифікація | 2009 | [97] | T. de Campos | |
EMNIST dataset | Рукописні символи від 3600 авторів | Похідне від спеціальної бази даних NIST 19. Перетворено на зображення розміром 28x28 пікселів, що відповідають набору даних MNIST.[98] | 800,000 | Зображення | розпізнавання символів, класифікація, розпізнавання почерку | 2016 | EMNIST dataset[99]
Documentation[100] |
Gregory Cohen, et al |
UJI Pen Characters Dataset | Ізольовані рукописні символи | Дано координати положення пера як символи. | 11,640 | Текст | Розпізнавання рукописного тексту, класифікація | 2009 | [101][102] | F. Prat et al. |
Gisette Dataset | Зразки почерку з 4 і 9 символів, які часто плутають. | Функції, витягнуті з зображень, розділені на train/test, розмір зображень рукописного введення нормалізовано. | 13,500 | Зображення, текст | Розпізнавання рукописного тексту, класифікація | 2003 | [103] | Yann LeCun et al. |
Omniglot dataset | 1623 різних рукописних символи з 50 різних алфавітів. | Марковані вручну. | 38,300 | Зображення, текст | Класифікація, одноразове навчання | 2015 | [104][105] | American Association for the Advancement of Science |
MNIST database | База даних рукописних цифр. | Марковані вручну. | 60,000 | Зображення, текст | Класифікація | 1998 | [106][107] | National Institute of Standards and Technology |
Optical Recognition of Handwritten Digits Dataset | Нормовані растрові зображення рукописних даних. | Розмір нормалізовано та зіставлено на растрові зображення. | 5620 | Зображення, текст | Розпізнавання рукописного тексту, класифікація | 1998 | [108] | E. Alpaydin et al. |
Pen-Based Recognition of Handwritten Digits Dataset | Рукописні цифри на електронній ручці-планшеті. | Витягуються вектори ознак для рівномірного розміщення. | 10,992 | Зображення, текст | Розпізнавання рукописного тексту, класифікація | 1998 | [109][110] | E. Alpaydin et al. |
Semeion Handwritten Digit Dataset | Рукописні цифри від 80 осіб. | Усі рукописні цифри нормалізовано за розміром і відображено в одній сітці. | 1593 | Зображення, текст | Розпізнавання рукописного тексту, класифікація | 2008 | [111] | T. Srl |
HASYv2 | Рукописні математичні символи | Усі символи відцентровані та мають розмір 32px x 32px. | 168233 | Зображення, текст | Класифікація | 2017 | [112] | Martin Thoma |
Noisy Handwritten Bangla Dataset | Включає набір даних рукописних цифр (10 класів) і базовий набір даних символів (50 класів), кожен набір даних має три типи шуму: білий гаусів, розмиття в русі та знижену контрастність. | Усі зображення відцентровані та мають розмір 32x32. | Numeral Dataset:
23330, Character Dataset: 76000 |
Зображення, текст | Розпізнавання рукописного тексту, класифікація | 2017 | [113][114] | M. Karki et al. |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
iSAID: Instance Segmentation in Aerial Images Dataset | Точна анотація на рівні екземпляра, виконана професійними анотаторами, перевірена та підтверджена експертними анотаторами, які відповідають чітко визначеним інструкціям. | 655,451 (15 classes) | Зображення, jpg, json | Повітряна класифікація, виявлення об'єктів, сегментація екземплярів | 2019 | [115][115] | Syed Waqas Zamir, Aditya Arora, Akshita Gupta, Salman Khan, Guolei Sun, Fahad Shahbaz Khan, Fan Zhu, Ling Shao, Gui-Song Xia, Xiang Bai | |
Aerial Image Segmentation Dataset | 80 аерофотознімків високої роздільної здатності з просторовою роздільною здатністю від 0,3 до 1,0. | Зображення сегментовані вручну. | 80 | Зображення | Повітряна класифікація, виявлення об'єктів | 2013 | [116][117] | J. Yuan et al. |
KIT AIS Data Set | Кілька позначених наборів навчальних та оцінювальних даних аерофотознімків натовпу. | Зображення, позначені вручну, щоб показувати шляхи людей через натовп | ~ 150 | Зображення з доріжками | Відстеження людей, повітряне спостереження | 2012 | [116][118] | M. Butenuth et al. |
Wilt Dataset | Дані дистанційного зондування хворих дерев та іншого ґрунтового покриву. | Вилучено різні функції. | 4899 | Зображення | Класифікація, виявлення повітряних об'єктів | 2014 | [119][120] | B. Johnson |
MASATI dataset | Морські сцени оптичних аерофотознімків із видимого спектру. Він містить кольорові зображення в динамічних морських середовищах, кожне зображення може містити одну або кілька цілей за різних погодних умов і умов освітлення. | Обмежувальні рамки та маркування об'єктів. | 7389 | Зображення | Класифікація, виявлення повітряних об'єктів | 2018 | [121][122] | A.-J. Gallego et al. |
Forest Type Mapping Dataset | Супутникові зображення лісів Японії. | Вилучено діапазони довжин хвилі зображення. | 326 | Текст | Класифікація | 2015 | [123][124] | B. Johnson |
Overhead Imagery Research Data Set[en] | Коментовані зображення накладних. Зображення з кількома об'єктами. | Понад 30 анотацій і понад 60 статистичних даних, які описують ціль у контексті зображення. | 1000 | Зображення, текст | Класифікація | 2009 | [125][126] | F. Tanner et al. |
SpaceNet | SpaceNet — це сукупність комерційних супутникових зображень і позначених навчальних даних. | Файли GeoTiff і GeoJSON, що містять сліди будівлі. | >17533 | Зображення | Класифікація, ідентифікація об'єкта | 2017 | [127][128][129] | DigitalGlobe, Inc.[en] |
UC Merced Land Use Dataset | Ці зображення були вручну витягнуті з великих зображень із колекції зображень міських районів Національної карти USGS для різних міських районів США. | Це 21-класний набір зображень землекористування, призначений для дослідницьких цілей. Для кожного класу є 100 зображень. | 2,100 | Зображення фішки розміром 256x256, 30 см (1 фут) GSD | Класифікація земельного покриву | 2010 | [130] | Yi Yang and Shawn Newsam |
SAT-4 Airborne Dataset | Зображення було витягнуто з набору даних Національної програми зображення сільського господарства (NAIP). | SAT-4 має чотири широкі класи ґрунтового покриву, включає безплідні землі, дерева, пасовища та клас, який складається з усіх класів ґрунтового покриву, крім трьох вищезазначених. | 500,000 | Зображення | Класифікація | 2015 | [131][132] | S. Basu et al. |
SAT-6 Airborne Dataset | Зображення було витягнуто з набору даних Національної програми зображення сільського господарства (NAIP). | SAT-6 має шість широких класів ґрунтового покриву, включає безплідні землі, дерева, пасовища, дороги, будівлі та водойми. | 405,000 | Зображення | Класифікація | 2015 | [131][133] | S. Basu et al. |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
NRC-GAMMA | Новий еталонний набір зображень газового лічильника | Жодного | 28,883 | Зображення, етикетка | Класифікація | 2021 | [134][135] | A. Ebadi, P. Paul, S. Auer, & S. Tremblay |
The SUPATLANTIQUE dataset | Зображення відсканованих офіційних документів та документів Вікіпедії | Жодного | 4908 | TIFF/pdf | Ідентифікація вихідного пристрою, виявлення підробок, класифікація,… | 2020 | [136] | C. Ben Rabah et al. |
Density functional theory quantum simulations of graphene | Позначені зображення вихідних даних для моделювання графену | Необроблені дані (у форматі HDF5) і вихідні мітки з квантового моделювання теорії функціональної щільності | 60744 тестових і 501473 навчальних файлів | Марковані зображення | Регресія | 2019 | [137] | K. Mills & I. Tamblyn |
Quantum simulations of an electron in a two dimensional potential well | Позначені зображення вихідних даних для моделювання 2d квантової механіки | Необроблені дані (у форматі HDF5) та вихідні мітки з квантового моделювання | 1,3 мільйона зображень | Марковані зображення | Регресія | 2017 | [138] | K. Mills, M.A. Spanner, & I. Tamblyn |
MPII Cooking Activities Dataset | Відео та зображення різних кулінарних заходів. | Шляхи та напрямки діяльності, мітки, дрібнозернисте позначення руху, клас активності, вилучення та маркування нерухомих зображень. | 881,755 frames | Марковані відео, зображення, текст | Класифікація | 2012 | [139][140] | M. Rohrbach et al. |
FAMOS Dataset | 5000 унікальних мікроструктур, всі зразки були отримані 3 рази за допомогою двох різних камер. | Оригінальні файли PNG, відсортовані за камерою, а потім за придбанням. Файли даних MATLAB з однією матрицею 16384 разів 5000 на камеру на одержання. | 30,000 | Файли зображень і .mat | Аутентифікація | 2012 | [141] | S. Voloshynovskiy, et al. |
PharmaPack Dataset | 1000 унікальних класів з 54 зображеннями в класі. | Маркування класів, багато локальних дескрипторів, таких як SIFT і aKaZE, і локальні агреатори функцій, як-от Fisher Vector (FV). | 54,000 | Файли зображень і .mat | Дрібнозерниста класифікація | 2017 | [142] | O. Taran and S. Rezaeifar, et al. |
Stanford Dogs Dataset | Зображення 120 порід собак з усього світу. | Надаються розділи для навчання/тесту та анотації ImageNet. | 20,580 | Зображення, текст | Дрібнозерниста класифікація | 2011 | [143][144] | A. Khosla et al. |
StanfordExtra Dataset | 2D ключові точки та сегментації для набору даних Stanford Dogs. | Надано 2D ключові точки та сегментації. | 12,035 | Марковані зображення | 3D реконструкція/оцінка пози | 2020 | [145] | B. Biggs et al. |
The Oxford-IIIT Pet Dataset | 37 категорій домашніх тварин із приблизно 200 зображеннями кожної. | Мітка породи, щільна рамка, сегментація переднього плану та фону. | ~ 7,400 | Зображення, текст | Класифікація, виявлення об'єктів | 2012 | [144][146] | O. Parkhi et al. |
Corel Image Features Data Set | База даних зображень з витягнутими функціями. | Багато функцій, включаючи гістограму кольорів, текстуру спільного появи та колірні моменти, | 68,040 | Текст | Класифікація, виявлення об'єктів | 1999 | [147][148] | M. Ortega-Bindenberger et al. |
Online Video Characteristics and Transcoding Time Dataset. | Час перекодування для різних відео та властивостей відео. | Надано функції відео. | 168,286 | Текст | Регресія | 2015 | [149] | T. Deneke et al. |
Microsoft Sequential Image Narrative Dataset (SIND) | Набір даних для послідовного перегляду мови | Описові підписи та розповідь наведено для кожної фотографії, а фотографії розташовані в послідовності | 81,743 | Зображення, текст | Візуальне оповідання | 2016 | [150] | Microsoft Research |
Caltech-UCSD Birds-200-2011 Dataset | Великий набір зображень птахів. | Розташування частин для птахів, рамки, 312 бінарних атрибутів | 11,788 | Зображення, текст | Класифікація | 2011 | [151][152] | C. Wah et al. |
YouTube-8M | Великий і різноманітний набір відеоданих із мітками | Ідентифікатори відео YouTube і пов'язані мітки з різноманітного словника з 4800 візуальних об'єктів | 8 million | Відео, текст | Класифікація відео | 2016 | [153][154] | S. Abu-El-Haija et al. |
YFCC100M | Великий і різноманітний набір даних зображень і відео з мітками | Розташування частин для птахів, обмежувальні рамки, 312 бінарних атрибутів, надані Flickr Videos and Images та пов'язані описи, назви, теги та інші метадані (наприклад, EXIF та геотеги) | 100 million | Відео, зображення, текст | Класифікація відео та зображень | 2016 | [155][156] | B. Thomee et al. |
Discrete LIRIS-ACCEDE | Короткі відео з анотаціями для валентності та збудження. | Етикетки валентності та збудження. | 9800 | Відео | Відео виявлення емоцій | 2015 | [157] | Y. Baveye et al. |
Continuous LIRIS-ACCEDE | Довгі відео з анотаціями для валентності та збудження, а також зібрані гальванічні реакції шкіри. | Етикетки валентності та збудження. | 30 | Відео | Відео виявлення емоцій | 2015 | [158] | Y. Baveye et al. |
MediaEval LIRIS-ACCEDE | Розширення Discrete LIRIS-ACCEDE, включаючи анотації для рівнів насильства у фільмах. | Мітки насильства, валентності та збудження. | 10900 | Відео | Відео виявлення емоцій | 2015 | [159] | Y. Baveye et al. |
Leeds Sports Pose | Артикуловані анотації людської пози на 2000 природних спортивних зображеннях із Flickr. | Грубий урожай навколо однієї особи, яка цікавить, з 14 спільними етикетками | 2000 | Зображення плюс мітки файлів .mat | Оцінка пози людини | 2010 | [160] | S. Johnson and M. Everingham |
Leeds Sports Pose Extended Training | Чітко сформульовані анотації людської пози на 10 000 природних спортивних зображень із Flickr. | 14 спільних етикеток через краудсорсинг | 10000 | Зображення плюс мітки файлів .mat | Оцінка пози людини | 2011 | [161] | S. Johnson and M. Everingham |
MCQ Dataset | 6 різних реальних іспитів із множинним вибором (735 бланків відповідей і 33 540 блоків відповідей) для оцінки методів і систем комп'ютерного зору, розроблених для систем оцінювання тестів із множинним вибором. | Жодного | 735 бланків відповідей та 33 540 скриньок для відповідей | Мітки файлів зображень і .mat | Розробка систем оцінювання тестів із множинним вибором | 2017 | [162][163] | Afifi, M. et al. |
Surveillance Videos | Справжні відеоспостереження охоплюють великий час спостереження (7 днів по 24 години кожне). | Жодного | 19 surveillance videos (7 days with 24 hours each). | Відео | Стиснення даних | 2016 | [164] | Taj-Eddin, I. A. T. F. et al. |
LILA BC | Маркована інформаційна бібліотека Олександрії: біологія та охорона. Позначені зображення, які підтримують дослідження машинного навчання в галузі екології та екології. | Жодного | ~10M images | Зображення | Класифікація | 2019 | [165] | LILA working group |
Can We See Photosynthesis? | 32 відео для восьми живих і восьми мертвих листків, записаних в умовах освітлення постійного та змінного струму. | Жодного | 32 відео | Відео | Виявлення живості рослин | 2017 | [166] | Taj-Eddin, I. A. T. F. et al. |
Mathematical Mathematics Memes | Колекція з 10 000 мемів з математики. | Жодного | ~10,000 | Зображення | Візуальне оповідання, виявлення об'єктів. | 2021 | [167] | Mathematical Mathematics Memes |
Ці набори даних складаються переважно з тексту для таких завдань, як обробка мови, аналіз настроїв, переклад і кластерний аналіз.
Назва | Опис | Оброботка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Amazon reviews | Огляди американських продуктів від Amazon.com. | Жодного | 233.1 million | Текст | Класифікація, аналіз настроїв | 2015 (2018) | [168][169] | McAuley et al. |
OpinRank Review Dataset | Огляди автомобілів і готелів від Edmunds.com і TripAdvisor відповідно. | Жодного | 42,230 / ~259,000 respectively | Текст | Аналіз настроїв, кластеризація | 2011 | [170][171] | K. Ganesan et al. |
MovieLens | 22 000 000 оцінок і 580 000 тегів застосовано до 33 000 фільмів 240 000 користувачів. | Жодного | ~ 22M | Текст | Регресія, кластеризація, класифікація | 2016 | [172][173] | GroupLens Research[en] |
Yahoo! Music User Ratings of Musical Artists | Понад 10 мільйонів рейтингів виконавців від користувачів Yahoo. | Жодного не описано. | ~ 10M | Текст | Класифікація, регресія | 2004 | [174][175] | Yahoo! |
Car Evaluation Data Set | Властивості автомобіля та їх загальна прийнятність. | Наведено шість категоріальних ознак. | 1728 | Текст | Класифікація | 1997 | [176] | M. Bohanec |
YouTube Comedy Slam Preference Dataset | Дані про голосування користувачів для пар відео, які відображаються на YouTube. Користувачі голосували за смішніші відео. | Надано метадані відео. | 1,138,562 | Текст | Класифікація | 2012 | [177][178] | |
Skytrax User Reviews Dataset | Відгуки користувачів про авіакомпанії, аеропорти, місця та салони від Skytrax. | Оцінки є дрібними і включають багато аспектів досвіду в аеропорту. | 41396 | Текст | Класифікація, регресія | 2015 | [179] | Q. Nguyen |
Teaching Assistant Evaluation Dataset | Огляди помічника вчителя. | Наведено особливості кожного екземпляра, такі як клас, розмір класу та викладач. | 151 | Текст | Класифікація | 1997 | [180] | W. Loh et al. |
Vietnamese Students’ Feedback Corpus (UIT-VSFC) | Відгуки студентів. | Коментарі | 16,000 | Текст | Класифікація | 1997 | [181][182] | Nguyen et al. |
Vietnamese Social Media Emotion Corpus (UIT-VSMEC) | Коментарі користувачів у Facebook. | Коментарі | 6,927 | Текст | Класифікація | 1997 | [183] | Nguyen et al. |
Vietnamese Open-domain Complaint Detection dataset (ViOCD) | Коментарі користувачів у Facebook. | Коментарі | 5,485 | Текст | Класифікація | 2021 | [184] | Nguyen et al. |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
NYSK Dataset | Англійські новини про справу щодо звинувачень у сексуальному насильстві проти колишнього директора МВФ Домініка Стросс-Кана. | Відфільтровано та представлено у форматі XML. | 10,421 | XML, текст | Аналіз настроїв, виділення теми | 2013 | [185] | Dermouche, M. et al. |
The Reuters Corpus Volume 1 | Великий корпус новин Reuters англійською мовою. | Дрібнозерниста категоризація та коди тем. | 810,000 | Текст | Класифікація, кластеризація, узагальнення | 2002 | [186] | Reuters |
The Reuters Corpus Volume 2 | Великий корпус новин Reuters кількома мовами. | Дрібнозерниста категоризація та коди тем. | 487,000 | Текст | Класифікація, кластеризація, узагальнення | 2005 | [187] | Reuters |
Thomson Reuters Text Research Collection | Великий корпус новин. | Деталі не описані. | 1,800,370 | Текст | Класифікація, кластеризація, узагальнення | 2009 | [188] | T. Rose et al. |
Saudi Newspapers Corpus | 31 030 арабських газетних статей. | Вилучено метадані. | 31,030 | JSON | Підведення підсумків, кластеризація | 2015 | [189] | M. Alhagri |
RE3D (Relationship and Entity Extraction Evaluation Dataset) | Entity and Relation позначені дані з різних новин та державних джерел. За підтримки Dstl | Відфільтровано, категоризація за допомогою типів Baleen | невідомо | JSON | Класифікація, сутність і розпізнавання відносин | 2017 | [189] | Dstl |
Examiner[en] Spam Clickbait Catalogue | Приманки кліків, спам, заголовки з краудсорсингу з 2010 по 2015 рік | Опублікувати дату та заголовки | 3,089,781 | CSV | Кластеризація, події, настрої | 2016 | [190] | R. Kulkarni |
ABC Australia News Corpus | Весь корпус новин ABC Australia з 2003 по 2019 рік | Опублікувати дату та заголовки | 1,186,018 | CSV | Кластеризація, події, настрої | 2020 | [191] | R. Kulkarni |
Worldwide News – Aggregate of 20K Feeds[en] | Тижневий знімок усіх онлайн-заголовків понад 20 мовами | Час публікації, URL-адреса та заголовки | 1,398,431 | CSV | Кластеризація, події, визначення мови | 2018 | [192] | R. Kulkarni |
Reuters News Wire Headline | 11 років подій із мітками часу, опублікованих у новинах | Час публікації, текст заголовка | 16,121,310 | CSV | НЛП, Комп'ютерна лінгвістика, Події | 2018 | [193] | R. Kulkarni |
Ireland News Corpus | Новини 24 років Ірландії з 1996 по 2019 рік | Час публікації, категорія заголовка та текст | 1,484,340 | CSV | НЛП, Комп'ютерна лінгвістика, Події | 2020 | [194] | R. Kulkarni |
News Headlines Dataset for Sarcasm Detection | Високоякісний набір даних із саркастичними та несаркастичними заголовками новин. | Чистий, нормований текст | 26,709 | JSON | НЛП, Комп'ютерна лінгвістика | 2018 | [195] | Rishabh Misra |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Enron Email Dataset | Електронні листи від співробітників Enron розбиті в папки. | Вкладення видалено, недійсні адреси електронної пошти перетворені на user@enron.com або no_address@enron.com | ~ 500,000 | Текст | Аналіз мережі, аналіз настроїв | 2004 (2015) | [196][197] | Klimt, B. and Y. Yang |
Ling-Spam Dataset | Корпус, що містить як легітимні листи, так і спам. | Чотири версії корпусу щодо того, чи був увімкнений лемматизатор чи стоп-лист. | 2,412 Ham 481 Spam | Текст | Класифікація | 2000 | [198][199] | Androutsopoulos, J. et al. |
SMS Spam Collection Dataset | Зібрані SMS-повідомлення зі спамом. | Немає | 5,574 | Текст | Класифікація | 2011 | [200][201] | T. Almeida et al. |
Messages from 20 different newsgroups. | Повідомлення з 20 різних груп новин. | Немає | 20,000 | Текст | Обробка природної мови | 1999 | [202] | T. Mitchell et al. |
Spambase Dataset | Спам електронних листів. | Вилучено багато текстових функцій. | 4,601 | Текст | Виявлення спаму, класифікація | 1999 | [203] | M. Hopkins et al. |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
MovieTweetings | Набір даних рейтингу фільмів на основі загальнодоступних і добре структурованих твітів | ~710,000 | Текст | Класифікація, регресія | 2018 | [204] | S. Dooms | |
Twitter100k | Пари зображень і твітів | 100,000 | Текст і зображення | Міжмедійний пошук | 2017 | [205][206] | Y. Hu, et al. | |
Sentiment140 | Дані твітів за 2009 рік, включаючи оригінальний текст, мітку часу, користувача та настрої. | Класифіковано за допомогою дистанційного спостереження від наявності смайлика в твіті. | 1,578,627 | Твіти, коми, розділені значення | аналіз настроїв | 2009 | [207][208] | A. Go et al. |
ASU Twitter Dataset | Дані мережі Twitter, а не фактичні твіти. Показує зв’язки між великою кількістю користувачів. | Немає | 11 316 811 користувачів, 85 331 846 підключень | Текст | Кластеризація, аналіз графів | 2009 | [209][210] | R. Zafarani et al. |
SNAP Social Circles: Twitter Database | Великі дані мережі Twitter. | Характеристики вузлів, кола та мережі его. | 1,768,149 | Текст | Кластеризація, аналіз графів | 2012 | [211][212] | J. McAuley et al. |
Twitter Dataset for Arabic Sentiment Analysis | Арабські твіти. | Зразки, позначені вручну як позитивні чи негативні. | 2000 | Текст | Класифікація | 2014 | [213][214] | N. Abdulla |
Buzz in Social Media Dataset | Дані з Twitter і Tom's Hardware. Цей набір даних зосереджено на конкретних актуальних темах, які обговорюються на цих сайтах. | Дані відображаються у вікні, щоб користувач міг спробувати передбачити події, які призвели до шуму в соціальних мережах. | 140,000 | Текст | Регресія, класифікація | 2013 | [215][216] | F. Kawala et al. |
Paraphrase and Semantic Similarity in Twitter (PIT) | Цей набір даних зосереджується на тому, чи мають твіти (майже) однакове значення/інформацію чи ні. Маркування вручну. | токенізацію, тегування частин мови та іменованих об’єктів | 18,762 | Текст | Регресія, класифікація | 2015 | [217][218] | Xu et al. |
Geoparse Twitter benchmark dataset | Цей набір даних містить твіти під час різних новинних подій у різних країнах. Згадки про місцеположення, позначені вручну. | до метаданих JSON додано анотації про місцезнаходження | 6,386 | Tweets, JSON | Класифікація, вилучення інформації | 2014 | [219][220] | S.E. Middleton et al. |
Dutch Social media collection | Цей набір даних містить твіти про COVID-19, зроблені нідерландськими носіями або користувачами з Нідерландів. Дані були позначені машиною | класифіковано за настрої, текст твітів і опис користувача, перекладений англійською. Вилучаються згадки про галузь | 271,342 | JSONL | Настрої, класифікація з кількома мітками, машинний переклад | 2020 | [221][222][223] | Aaaksh Gupta, CoronaWhy |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
NPS Chat Corpus | Публікації з вікових онлайн-чатів. | Конфіденційність рук замаскована, позначена як частина мови та діалог-акт. | ~ 500,000 | XML | НЛП, програмування, лінгвістика | 2007 | [224] | Forsyth, E., Lin, J., & Martell, C. |
Twitter Triple Corpus | A-B-A трійки витягнуто з Twitter. | 4,232 | Текст | NLP | 2016 | [225] | Sordini, A. et al. | |
UseNet Corpus | Повідомлення на форумі UseNet. | Анонімні електронні листи та URL-адреси. Пропущені документи довжиною <500 слів або >500 000 слів, або які були <90% англійською. | 7 billion | Текст | 2011 | [226] | Shaoul, C., & Westbury C. | |
NUS SMS Corpus | SMS-повідомлення, зібрані між двома користувачами, з аналізом часу. | ~ 10,000 | XML | NLP | 2011 | [227] | KAN, M | |
Reddit All Comments Corpus | Усі коментарі на Reddit (станом на 2015 рік). | ~ 1.7 billion | JSON | НЛП, дослідження | 2015 | [228] | Stuck_In_the_Matrix | |
Ubuntu Dialogue Corpus | Діалоги, витягнуті з потоку чату Ubuntu на IRC. | 930 thousand dialogues, 7.1 million utterances | CSV | Dialogue Systems Research | 2015 | [229] | Lowe, R. et al. | |
Dialog State Tracking Challenge | Проблеми відстеження стану діалогу 2 і 3 (DSTC2&3) були дослідницьким завданням, зосередженим на покращенні сучасного рівня відстеження стану мовних діалогових систем. | Транскрипція розмовних діалогів з маркуванням | DSTC2 contains ~3.2k calls – DSTC3 contains ~2.3k calls | Json | Відстеження стану діалогу | 2014 | [230] | Henderson, Matthew and Thomson, Blaise and Williams, Jason D |
Назва | Опис | Обробка | Розмір | Формат | Формат | Створений | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Web of Science Dataset | Ієрархічні набори даних для класифікації тексту | Немає | 46,985 | Текст | класифікація,
Категоризація |
2017 | [231][232] | K. Kowsari et al. |
Legal Case Reports | Розгляд справ Федерального суду Австралії з 2006 по 2009 роки. | Немає | 4,000 | Текст | Підведення підсумків,
аналіз цитування |
2012 | [233][234] | F. Galgani et al. |
Blogger Authorship Corpus | Записи в блозі 19 320 людей із blogger.com. | Блогер сам надає стать, вік, галузь та астрологічний знак. | 681,288 | Текст | Аналіз настроїв, узагальнення, класифікація | 2006 | [235][236] | J. Schler et al. |
Social Structure of Facebook Networks | Великий набір даних соціальної структури Facebook. | Немає | Охоплено 100 коледжів | Текст | Аналіз мережі, кластеризація | 2012 | [237][238] | A. Traud et al. |
Dataset for the Machine Comprehension of Text | Розповіді та відповідні запитання для перевірки розуміння тексту. | Немає | 660 | Текст | Обробка природної мови, машинне розуміння | 2013 | [239][240] | M. Richardson et al. |
The Penn Treebank Project | Природний текст, анотований для мовної структури. | Текст розбирається на семантичні дерева. | ~ 1 млн слів | Текст | Обробка природної мови, узагальнення | 1995 | [241][242] | M. Marcus et al. |
DEXTER Dataset | Поставлене завдання – визначити за наведеними ознаками, які статті стосуються корпоративних придбань. | Вилучені ознаки включають основи слів. Включені функції відволікача. | 2600 | Текст | Класифікація | 2008 | [243] | Reuters |
Google Books N-grams | N-грами з дуже великого корпусу книг | Немає | 2,2 ТБ тексту | Текст | Класифікація, кластеризація, регресія | 2011 | [244][245] | |
Personae Corpus | Зібрано для експериментів із визначення авторства та передбачення особистості. Складається з 145 есе голландською мовою. | Крім звичайних текстів наводяться синтаксично анотовані тексти. | 145 | Текст | Класифікація, регресія | 2008 | [246][247] | K. Luyckx et al. |
CNAE-9 Dataset | Завдання на категоризацію для вільних текстових описів бразильських компаній. | Вилучено частоту слів. | 1080 | Текст | Класифікація | 2012 | [248][249] | P. Ciarelli et al. |
Sentiment Labeled Sentences Dataset | 3000 речень, позначених настроєм | Настрої кожного речення вручну позначені як позитивні чи негативні. | 3000 | Текст | Класифікація, аналіз настроїв | 2015 | [250][251] | D. Kotzias |
BlogFeedback Dataset | Набір даних для прогнозування кількості коментарів, які отримає публікація на основі функцій цієї публікації. | Вилучено багато функцій кожного повідомлення. | 60,021 | Текст | Регресія | 2014 | [252][253] | K. Buza |
Stanford Natural Language Inference (SNLI) Corpus | Підписи до зображень поєднуються з нещодавно створеними реченнями, щоб утворити суть, протиріччя або нейтральні пари. | Мітки класів Entailment, синтаксичний аналіз за допомогою аналізатора Stanford PCFG | 570,000 | Текст | Висновок природної мови/розпізнавання тексту | 2015 | [254] | S. Bowman et al. |
DSL Corpus Collection (DSLCC) | Багатомовна збірка коротких уривків публіцистичних текстів схожими мовами та діалектами. | Немає | 294,000 фраз | Текст | Розрізнення схожих мов | 2017 | [255] | Tan, Liling et al. |
Urban Dictionary Dataset | Корпус слів, голосів і визначень | Імена користувачів анонімні | 2,580,925 | CSV | НЛП, машинне розуміння | 2016 May | [256] | Anonymous |
T-REx | Реферати Вікіпедії узгоджені з сутностями Вікіданих | Вирівнювання трійок Вікіданих з тезами Вікіпедії | 11M вирівняні трійки | JSON and NIF [3] | НЛП, вилучення відносин | 2018 | [257] | H. Elsahar et al. |
General Language Understanding Evaluation (GLUE) | Тест із дев’яти завдань | Різні | ~1М речень і пар речень | NLU | 2018 | [258][259][260] | Wang et al. | |
Contract Understanding Atticus Dataset (CUAD) (formerly known as Atticus Open Contract Dataset (AOK)) | Набір даних юридичних договорів з багатими експертними анотаціями | ~13 000 етикеток | CSV and PDF | Обробка природної мови, QnA | 2021 | The Atticus Project | ||
Vietnamese Image Captioning Dataset (UIT-ViIC) | В'єтнамський набір даних підписів зображень | 19 250 підписів для 3 850 зображень | CSV and PDF | Обробка природної мови, комп’ютерний зір | 2020 | [261] | Lam et al. | |
Vietnamese Names annotated with Genders (UIT-ViNames) | В’єтнамські назви з анотаціями статей | 26 850 в’єтнамських повних імен із анотацією статі | CSV | Обробка природної мови | 2020 | [262] | To et al. | |
Vietnamese Constructive and Toxic Speech Detection Dataset (UIT-ViCTSD) | В'єтнамський набір даних для виявлення конструктивної та токсичної мови | 10 000 в'єтнамських користувачів прокоментували інтернет-газети в 10 доменах | CSV | Обробка природної мовиОбробка природної мови | 2021 | [263] | Nguyen et al. | |
The Pile | Збірка кількох великих наборів даних із різноманітних і неструктурованих текстів | Різні (видалення HTML і Javascript з веб-сайтів, видалення повторюваних речень) | 825 ГіБ англійським текстом | JSON[264][265] Lines | Обробка природної мови, передбачення тексту | 2021 | [266][267] | Gao et |
Ці набори даних складаються зі звуків і звукових функцій, які використовуються для таких завдань, як розпізнавання мовлення та синтез мовлення.
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Zero Resource Speech Challenge 2015 | Спонтанне мовлення (англійська мова), Читана мова (Xitsonga). | Немає, необроблені файли WAV. | англійська: 5 год, 12 динаміків; Xitsonga: 2:30, 24 динаміки | WAV (audio only) | Неконтрольоване виявлення мовних властивостей/підрядних одиниць/одиниць слів | 2015 | [268][269] | Versteegh et al. |
Parkinson Speech Dataset | Багато записів людей із хворобою Паркінсона та без неї. | Вилучено голосові характеристики, оцінка захворювання лікарем за уніфікованою шкалою оцінки хвороби Паркінсона[en]. | 1,040 | Текст | Класифікація, регресія | 2013 | [270][271] | B. E. Sakar et al. |
Spoken Arabic Digits | Розмовні арабські цифри з 44 чоловіків і 44 жінок. | Часові ряди коефіцієнтів мел-частотного кепстру. | 8,800 | Текст | Класифікація | 2010 | [272][273] | M. Bedda et al. |
ISOLET Dataset | Назви розмовних букв. | Особливості, витягнуті зі звуків. | 7797 | Текст | Класифікація | 1994 | [274][275] | R. Cole et al. |
Japanese Vowels Dataset | Дев'ять чоловіків, які говорять, вимовляли дві японські голосні підряд. | Застосував до нього 12-градусний аналіз лінійного прогнозування, щоб отримати дискретно-часовий ряд з 12 коефіцієнтами кепстру. | 640 | Текст | Класифікація | 1999 | [276][277] | M. Kudo et al. |
Parkinson's Telemonitoring Dataset | Багато записів людей із хворобою Паркінсона та без неї. | Вилучено звукові характеристики. | 5875 | Текст | Класифікація | 2009 | [278][279] | A. Tsanas et al. |
TIMIT[en] | Записи 630 носіїв восьми основних діалектів американської англійської, кожен з яких читає десять фонетично насичених речень. | Мовлення лексично і фонематично транскрибується. | 6300 | Текст | Розпізнавання мовлення, класифікація. | 1986 | [280][281] | J. Garofolo et al. |
Arabic Speech Corpus[en] | Корпус мовлення сучасної стандартної арабської мови (MSA) для одного мовця з фонетичними та орфографічними транскриптами, вирівняними на рівні фонем. | Мовлення орфографічно і фонетично транскрибується з наголосами. | ~1900 | Текст, WAV | Синтез мовлення, розпізнавання мовлення, вирівнювання корпусу, логопедія, освіта. | 2016 | [282] | N. Halabi |
Common Voice[en] | Загальнодоступна база даних краудсорсингу в широкому діапазоні діалектів. | Перевірка іншими користувачами. | English: 1,118 hours | MP3 з відповідними текстовими файлами | Розпізнавання мови | June 2017 (December 2019) | [283] | Mozilla |
LJSpeech | Корпус англійських записів аудіокниг, які є загальнодоступними, розбитими на короткі кліпи за розділовими знаками. | Перевірка якості, нормалізована транскрипція поряд з оригіналом. | 13,100 | CSV, WAV | Синтез мовлення | 2017 | [284] | Keith Ito, Linda Johnson |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Geographic Origin of Music Data Set | Звукові особливості музичних зразків з різних місць. | Функції аудіо, отримані за допомогою програмного забезпечення MARSYAS. | 1,059 | Текст | Географічна класифікація, кластеризація | 2014 | [285][286] | F. Zhou et al. |
Million Song Dataset | Звукові функції з мільйона різних пісень. | Функції аудіо вилучено. | 1M | Текст | Класифікація, кластеризація | 2011 | [287][288] | T. Bertin-Mahieux et al. |
MUSDB18 | Багатодоріжкові записи популярної музики | Сирий звук | 150 | MP4, WAV | Поділ джерел | 2017 | [289] | Z. Rafii et al. |
Free Music Archive[en] | Аудіо під Creative Commons із 100 тисяч пісень (343 дні, 1TiB) з ієрархією із 161 жанру, метаданими, даними користувача, текстом у довільній формі. | Функції необробленого звуку та аудіо. | 106,574 | Текст , MP3 | Класифікація, рекомендація | 2017 | [290] | M. Defferrard et al. |
Bach Choral Harmony Dataset | Хоральні акорди Баха. | Функції аудіо вилучено. | 5665 | Текст | Класифікація | 2014 | [291][292] | D. Radicioni et al. |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
UrbanSound | Марковані звукозаписи звуків, таких як кондиціонери, автомобільні гудки та діти, які грають. | Відсортовано по папках за класом подій, а також метаданими у файлі JSON та анотаціями у файлі CSV. | 1,059 | Звук
(WAV) |
Класифікація | 2014 | [293][294] | J. Salamon et al. |
AudioSet | 10-секундні звукові фрагменти з відео YouTube та онтологія з понад 500 міток. | 128-d PCA'd VGG-ish показує кожні 1 секунду. | 2,084,320 | Текстові (CSV) і файли TensorFlow Record | Класифікація | 2017 | [295] | J. Gemmeke et al., Google |
Bird Audio Detection challenge | Аудіо зі станцій моніторингу навколишнього середовища, а також записи з краудсорсингу | 17,000+ | Класифікація | 2016 (2018) | [296][297] | Queen Mary University and IEEE Signal Processing Society[en] | ||
WSJ0 Hipster Ambient Mixtures | Аудіо з WSJ0 змішано з шумом, записаним у районі затоки Сан-Франциско | Кліпи з шумом, відповідні кліпам WSJ0 | 28,000 | Звук(WAV) | Розділення джерел звуку | 2019 | [298] | Wichern, G., et al., Whisper and MERL |
Clotho | 4981 звуковий зразок тривалістю від 15 до 30 секунд, кожен з яких має п’ять різних підписів довжиною від 8 до 20 слів. | 24,905 | Звук (WAV) та текст(CSV) | Автоматичні субтитри | 2020 | [295][299] | K. Drossos, S. Lipping, and T. Virtanen |
Набори даних, що містять інформацію про електричний сигнал, що вимагає певної обробки сигналу для подальшого аналізу.
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створений | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Witty Worm Dataset | Набір даних із детальною інформацією про поширення хробака Witty та заражених комп’ютерів. | Розділіть на загальнодоступний набір і обмежений набір, що містить більш конфіденційну інформацію, як-от заголовки IP і UDP. | 55,909 IP addresses | Текст | Класифікація | 2004 | [300][301] | Center for Applied Internet Data Analysis |
Cuff-Less Blood Pressure Estimation Dataset | Очищені життєво важливі сигнали від пацієнтів, які можна використовувати для оцінки артеріального тиску. | Життєві показники 125 Гц очищено. | 12,000 | Текст | Класифікація, регресія | 2015 | [302][302] | M. Kachuee et al. |
Gas Sensor Array Drift Dataset | Вимірювання з 16 хімічних датчиків, використаних у моделюванні для компенсації дрейфу. | Велика кількість наданих функцій. | 13,910 | Текст | Класифікація | 2012 | [303][304] | A. Vergara |
Servo Dataset | Дані, що охоплюють нелінійні співвідношення, що спостерігаються в схемі сервопідсилювача. | Наведено рівні різних компонентів як функції інших компонентів. | 167 | Текст | Регресія | 1993 | [305][306] | K. Ullrich |
UJIIndoorLoc-Mag Dataset | База даних локалізації всередині приміщень для тестування внутрішніх систем позиціонування. Дані базуються на магнітному полі. | Дано розділи на тренування та тести. | 40,000 | Текст | Класифікація, регресія, кластеризація | 2015 | [307][308] | D. Rambla et al. |
Sensorless Drive Diagnosis Dataset | Електричні сигнали від двигунів з несправними компонентами. | Вилучено статистичні ознаки. | 58,508 | Текст | Класифікація | 2015 | [309][310] | M. Bator |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створенний | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Wearable Computing: Classification of Body Postures and Movements (PUC-Rio) | Люди, які виконують п’ять стандартних дій під час носіння трекерів руху. | Немає | 165,632 | Текст | Класифікація | 2013 | [311][312] | Pontifical Catholic University of Rio de Janeiro[en] |
Gesture Phase Segmentation Dataset | Функції, отримані з відео людей, які роблять різні жести. | Вилучені функції спрямовані на вивчення фазової сегментації жестів. | 9900 | Текст | Класифікація, кластеризація | 2014 | [313][314] | R. Madeo et a |
Vicon Physical Action Data Set Dataset | 10 звичайних і 10 агресивних фізичних дій, які вимірюють активність людини, яку відстежує 3D-трекер. | Багато параметрів записує 3D трекер. | 3000 | Текст | Класифікація | 2011 | [315][316] | T. Theodoridis |
Daily and Sports Activities Dataset | Дані датчиків двигуна для 19 щоденних і спортивних занять. | Надано багато датчиків, без попередньої обробки сигналів. | 9120 | Текст | Класифікація | 2013 | [317][318] | B. Barshan et al. |
Human Activity Recognition Using Smartphones Dataset | Дані гіроскопа та акселерометра від людей, які носять смартфони та виконують звичайні дії. | Виконані дії позначаються, всі сигнали попередньо обробляються на наявність шуму. | 10,299 | Текст | Класифікація | 2012 | [319][320] | J. Reyes-Ortiz et al. |
Australian Sign Language Signs | Австралійські знаки жестовою мовою, зняті рукавичками для відстеження руху. | Немає | 2565 | Текст | Класифікація | 2002 | [321][322] | M. Kadous |
Weight Lifting Exercises monitored with Inertial Measurement Units | П’ять варіантів вправи на скручування біцепса, що контролюються за допомогою IMU. | Деякі статистичні дані, розраховані на основі необроблених даних. | 39,242 | Текст | Класифікація | 2013 | [323][324] | W. Ugulino et al. |
sEMG for Basic Hand movements Dataset | Дві бази даних поверхневих електроміографічних сигналів 6 рухів рук. | Немає | 3000 | Текст | Класифікація | 2014 | [325][326] | C. Sapsanis et al. |
REALDISP Activity Recognition Dataset | Оцініть методи, що стосуються впливу зміщення датчика при розпізнаванні активності, що можна носити. | Немає | 1419 | Текст | Класифікація | 2014 | [326][327] | O. Banos et al. |
Heterogeneity Activity Recognition Dataset | Дані з кількох різних розумних пристроїв для людей, які виконують різні види діяльності. | Немає | 43,930,257 | Текст | Класифікація, кластеризація | 2015 | [328][329] | A. Stisen et al. |
Indoor User Movement Prediction from RSS Data | Тимчасові дані бездротової мережі, які можна використовувати для відстеження переміщення людей в офісі. | Немає | 13,197 | Текст | Класифікація | 2016 | [330][331] | D. Bacciu |
PAMAP2 Physical Activity Monitoring Dataset | 18 різних видів фізичних навантажень, які виконували 9 випробовуваних у 3 ІДУ. | Немає | 3,850,505 | Текст | Класифікація | 2012 | [332] | A. Reiss |
OPPORTUNITY Activity Recognition Dataset | Розпізнавання людської активності від датчиків, які можна носити, об’єкта та навколишнього середовища – це набір даних, розроблений для порівняння алгоритмів розпізнавання людської діяльності. | Немає | 2551 | Текст | Класифікація | 2012 | [333][334] | D. Roggen et al. |
Real World Activity Recognition Dataset | Розпізнавання людської діяльності за допомогою носових пристроїв. Розрізняє сім положень на корпусі пристрою та містить шість різних типів датчиків. | Немає | 3 150 000 (за датчик) | Текст | Класифікація | 2016 | [335] | T. Sztyler et al. |
Toronto Rehab Stroke Pose Dataset | Тривимірні оцінки пози людини (Kinect) пацієнтів із інсультом та здорових учасників, які виконують набір завдань за допомогою робота для реабілітації після інсульту. | Немає | 10 здорових людей і 9 людей, які пережили інсульт (3500–6000 кадрів на людину) | CSV | Класифікація | 2017 | [336][337][338] | E. Dolatabadi et al. |
Corpus of Social Touch (CoST) | 7805 жестів фіксують 14 різних жестів соціального дотику, виконаних 31 досліджуваним. Жести виконувались у трьох варіантах: ніжні, нормальні та грубі, на сітці датчика тиску, обмотаної навколо руки манекена. | Здійснювані сенсорні жести сегментовані та позначені. | 7805 зйомок жестів | CSV | Класифікація | 2016 | [339][340] | M. Jung et al. |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Wine Dataset | Хімічний аналіз вин, вирощених в одному регіоні Італії, але отриманих з трьох різних сортів. | Наведено 13 властивостей кожного вина | 178 | Текст | Класифікація, регресія | 1991 | [341][342] | M. Forina et al. |
Combined Cycle Power Plant Data Set | Дані від різних датчиків на електростанції, яка працює протягом 6 років. | Жодного | 9568 | Текст | Регресія | 2014 | [343][344] | P. Tufekci et al. |
Набори даних з фізичних систем.
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
HIGGS Dataset | Моделювання Монте-Карло зіткнень прискорювачів частинок. | Наведено 28 ознак кожного зіткнення. | 11M | Текст | Класифікація | 2014 | [345][346][347] | D. Whiteson |
HEPMASS Dataset | Моделювання Монте-Карло зіткнень прискорювачів частинок. Мета – відокремити сигнал від шуму. | Наведено 28 ознак кожного зіткнення. | 10,500,000 | Текст | Класифікація | 2016 | [346][347][348] | D. Whiteson |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Yacht Hydrodynamics Dataset | Продуктивність яхти на основі розмірів. | Для кожної яхти надано шість функцій. | 308 | Текст | Регресія | 2013 | [349][350] | R. Lopez |
Robot Execution Failures Dataset | 5 наборів даних, які зосереджені на збій роботи роботів у виконанні звичайних завдань. | Цілочисельні функції, такі як крутний момент та інші вимірювання датчиків. | 463 | Текст | Класифікація | 1999 | [351] | L. Seabra et al. |
Pittsburgh Bridges Dataset | Опис конструкції дається з точки зору кількох властивостей різних мостів. | Наведено різні особливості мосту. | 108 | Текст | Класифікація | 1990 | [352][353] | Y. Reich et al. |
Automobile Dataset | Дані про автомобілі, їх страховий ризик та нормовані збитки. | Характеристики автомобіля вилучені. | 205 | Текст | Регресія | 1987 | [354][355] | J. Schimmer et al. |
Auto MPG Dataset | Дані MPG для автомобілів. | Наведено вісім особливостей кожного автомобіля. | 398 | Текст | Регресія | 1993 | [356] | Carnegie Mellon University |
Energy Efficiency Dataset | Вимоги до опалення та охолодження наведені як функція параметрів будівлі. | Параметри будівлі наведено. | 768 | Текст | Класифікація, регресія | 2012 | [357][358] | A. Xifara et al. |
Airfoil Self-Noise Dataset | Серія аеродинамічних та акустичних випробувань дво- та тривимірних секцій лопаті аеродинамічного профілю. | Наведено дані про частоту, кут атаки тощо. | 1503 | Текст | Регресія | 2014 | [359] | R. Lopez |
Challenger USA Space Shuttle O-Ring Dataset | Спробуйте передбачити проблеми з ущільнювальними кільцями, враховуючи попередні дані Challenger. | Наведено кілька особливостей кожного польоту, наприклад, температура запуску. | 23 | Текст | Регресія | 1993 | [360][361] | D. Draper et al. |
Statlog (Shuttle) Dataset | Набори даних космічного човника NASA. | Надано дев’ять ознак. | 58,000 | Текст | Класифікація | 2002 | [362] | NASA |
Назва | Опис | Обробка | Розмір | Формат | Задача | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Volcanoes on Venus – JARtool experiment Dataset | Зображення Венери, отримані космічним кораблем Магеллан. | Зображення позначаються людьми. | not given | Зображення | Класифікація | 1991 | [363][364] | M. Burl |
MAGIC Gamma Telescope Dataset | Монте-Карло генерував події високої енергії гамма-частинок. | Численні функції, отримані з моделювання. | 19,020 | Текст | Класифікаціяion | 2007 | [364][365] | R. Bock |
Solar Flare Dataset | Вимірювання кількості певних типів сонячних спалахів, що відбуваються протягом 24 годин. | Надано багато специфічних особливостей сонячних спалахів. | 1389 | Текст | Розділення джерела звуку | 1989 | [366] | G. Bradshaw |
CAMELS Multifield Dataset | 2D-карти та 3D-сітки з тисяч N-тіл і найсучасніших гідродинамічних симуляцій, що охоплюють широкий діапазон значень космологічних і астрофізичних параметрів | Кожна карта та сітка мають 6 космологічних та астрофізичних параметрів, пов’язаних з нею | 405,000 2D maps and 405,000 3D grids | 2D maps and 3D grids | Регресія | 2021 | [367] | Francisco Villaescusa-Navarro et al. |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Volcanoes of the World | Дані про виверження вулканів для всіх відомих вулканічних подій на Землі. | Наведено такі деталі, як регіон, субрегіон, тектонічні умови, домінуючий тип гірських порід. | 1535 | Текст | Регресія, класифікація | 2013 | [368] | E. Venzke et al. |
Seismic-bumps Dataset | Сейсмічна діяльність на вугільній шахті. | Сейсмічна активність була класифікована як небезпечна чи ні. | 2584 | Текст | Класифікація | 2013 | [369][370] | M. Sikora et al. |
CAMELS-US | Набір гідрологічних даних водозбору з гідрометеорологічними хронометражами та різними атрибутами | див. Посилання | 671 | CSV, Text, Shapefile | Регресія | 2017 | [371][372] | N. Addor et al. / A. Newman et al. |
CAMELS-Chile | Набір гідрологічних даних водозбору з гідрометеорологічними хронометражами та різними атрибутами | див. Посилання | 516 | CSV, Text, Shapefile | Регресія | 2018 | [373] | C. Alvarez-Garreton et al. |
CAMELS-Brazil | Набір гідрологічних даних водозбору з гідрометеорологічними хронометражами та різними атрибутами | див. Посилання | 897 | CSV, Text, Shapefile | Регресія | 2020 | [374] | V. Chagas et al. |
CAMELS-GB | Набір гідрологічних даних водозбору з гідрометеорологічними хронометражами та різними атрибутами | див. Посилання | 671 | CSV, Text, Shapefile | Регресія | 2020 | [375] | G. Coxon et al. |
CAMELS-Australia | Набір гідрологічних даних водозбору з гідрометеорологічними хронометражами та різними атрибутами | див. Посилання | 222 | CSV, Text, Shapefile | Регресія | 2021 | [376] | K. Fowler et al. |
LamaH-CE | Набір гідрологічних даних водозбору з гідрометеорологічними хронометражами та різними атрибутами | див. Посилання | 859 | CSV, Text, Shapefile | Регресія | 2021 | [377] | C. Klingler et al. |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створений | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Concrete Compressive Strength Dataset | Набір даних про властивості бетону та міцність на стиск. | Для кожного зразка надано дев’ять ознак. | 1030 | Текст | Регресія | 2007 | [378][379] | I. Yeh |
Concrete Slump Test Dataset | Осадка бетону наведена з точки зору властивостей. | Наведені характеристики бетону, такі як летюча зола, вода тощо. | 103 | Текст | Регресія | 2009 | [380][381] | I. Yeh |
Musk Dataset | Спрогнозуйте, чи буде молекула, враховуючи особливості, мускусом чи немускусом. | Для кожної молекули наведено 168 ознак. | 6598 | Текст | Класифікація | 1994 | [382] | Arris Pharmaceutical Corp. |
Steel Plates Faults Dataset | Сталеві пластини 7 різних типів. | Для кожного зразка наведено 27 ознак. | 1941 | Текст | Класифікація | 2010 | [383] | Semeion Research Center |
Набори даних з біологічних систем.
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Synthetic Fundus Dataset[384] | Фотореалістичні зображення сітківки та сегментації судин. Публічний домен. | 2500 зображень з роздільністю 1500*1152 пікселів, корисних для сегментації та класифікації вен і артерій на одному фоні. | 2500 | Зображення | Класифікація, сегментація | 2020 | [385] | C. Valenti et al. |
EEG Database | Дослідження для вивчення корелятів ЕЕГ генетичної схильності до алкоголізму. | Вимірювання за допомогою 64 електродів, розміщених на шкірі голови, відбираються при частоті 256 Гц (епоха 3,9 мс) протягом 1 секунди. | 122 | Текст | Класифікація | 1999 | [386] | H. Begleiter |
P300 Interface Dataset | Дані від дев’яти суб’єктів, зібрані за допомогою інтерфейсу «мозок-комп’ютер» на основі P300 для суб’єктів з обмеженими можливостями. | Розділіть на чотири заняття для кожного предмета. Дано код MATLAB. | 1,224 | Текст | Класифікація | 2008 | [387][388] | U. Hoffman et al. |
Heart Disease Data Set | Приписують пацієнтів із серцевими захворюваннями та без них. | 75 атрибутів, наданих для кожного пацієнта з деякими відсутніми значеннями. | 303 | Текст | Класифікація | 1988 | [389][390] | A. Janosi et al. |
Breast Cancer Wisconsin (Diagnostic) Dataset | Набір даних про особливості утворення грудей. Діагноз ставить лікар. | Наведено 10 ознак для кожного зразка. | 569 | Текст | Класифікація | 1995 | [391][392] | W. Wolberg et al. |
National Survey on Drug Use and Health | Широкомасштабне дослідження здоров'я та вживання наркотиків у Сполучених Штатах. | Немає | 55,268 | Текст | Класифікація, регресія | 2012 | [393] | United States Department of Health and Human Services |
Lung Cancer Dataset | Набір даних про рак легенів без визначення атрибутів | Для кожного випадку наведено 56 ознак | 32 | Текст | Класифікація | 1992 | [394][395] | Z. Hong et al. |
Arrhythmia Dataset | Дані для групи пацієнтів, з яких у деяких спостерігається серцева аритмія. | 276 функцій для кожного екземпляра. | 452 | Текст | Класифікація | 1998 | [396][397] | H. Altay et al. |
Diabetes 130-US hospitals for years 1999–2008 Dataset | Дані про реадмісію за 9 років у 130 американських лікарнях для пацієнтів з цукровим діабетом. | Наведено багато особливостей кожної реадмісії. | 100,000 | Текст | Класифікація, кластеризація | 2014 | [398][399] | J. Clore et al. |
Diabetic Retinopathy Debrecen Dataset | Характеристики, отримані із зображень очей з діабетичною ретинопатією та без неї. | Вилучено ознаки та діагностовано умови. | 1151 | Текст | Класифікація | 2014 | [400][401] | B. Antal et al. |
Diabetic Retinopathy Messidor Dataset | Методи оцінки методів сегментації та індексації в області офтальмології сітківки (MESSIDOR) | Характеризує ступінь ретинопатії та ризик розвитку макулярного набряку | 1200 | Зображення, текст | Класифікація, сегментація | 2008 | [402][403] | Messidor Project |
Liver Disorders Dataset | Дані для людей із захворюваннями печінки. | Для кожного пацієнта наведено сім біологічних ознак. | 345 | Текст | Класифікація | 1990 | [404][405] | Bupa Medical Research Ltd. |
Thyroid Disease Dataset | 10 баз даних пацієнтів із захворюваннями щитоподібної залози. | Немає | 7200 | Текст | Класифікація | 1987 | [406][407] | R. Quinlan |
Mesothelioma Dataset | Дані пацієнтів з мезотеліомою. | Наведено велику кількість особливостей, включаючи вплив азбесту. | 324 | TextТекст | Класифікація2016 | 2016 | [408][409] | A. Tanrikulu et al. |
Parkinson's Vision-Based Pose Estimation Dataset | 2D оцінки пози людини пацієнтів з хворобою Паркінсона, які виконують різноманітні завдання. | Тремтіння камери вилучено з траєкторій. | 134 | Текст | Класифікація, регресія | 2017 | [410][411][412] | M. Li et al. |
KEGG Metabolic Reaction Network (Undirected) Dataset | Мережа метаболічних шляхів. Дано мережу реакцій і мережу відношень. | Наведено детальні характеристики для кожного вузла мережі та шляху. | 65,554 | Текст | Класифікація, кластеризація, регресія | 2011 | [413] | M. Naeem et al. |
Modified Human Sperm Morphology Analysis Dataset (MHSMA) | Зображення сперми людини 235 пацієнтів з чоловічим фактором безпліддя, позначені для нормальної або аномальної сперматозоїди акросоми, головки, вакуолі та хвоста. | Обрізаний навколо однієї головки сперматозоїда. Нормалізоване збільшення. Створено розділи для навчання, перевірки та тестування. | 1,540 | .npy files | Класифікація | 2019 | [414][415] | S. Javadi and S.A. Mirroshandel |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Abalone Dataset | Фізичні вимірювання вушка. Також вказано погодні умови та місце розташування | Немає | 4177 | Текст | Регресія | 1995 | [416] | Marine Research Laboratories – Taroona |
Zoo Dataset | Штучний набір даних, що охоплює 7 класів тварин. | Тварини поділяються на 7 категорій, для кожної наведені особливості. | 101 | Текст | Класифікація | 1990 | [417] | R. Forsyth |
Demospongiae Dataset | Дані про морських губках. | 503 губки класу Demosponge описуються різними ознаками. | 503 | Текст | Класифікація | 2010 | [418] | E. Armengol et al. |
Farm animals data | Інвентаризація даних PLF (корови, свині; розташування, прискорення тощо). | Марковані набори даних. | Список постійно оновлюється | Текст | Класифікація | 2020 | [419] | V. Bloch |
Splice-junction Gene Sequences Dataset | Послідовності генів з’єднання приматів (ДНК) з асоційованою недосконалою теорією домену. | Немає | 3190 | Текст | Класифікація | 1992 | [395] | G. Towell et al. |
Mice Protein Expression Dataset | Рівні експресії 77 білків виміряли в корі головного мозку мишей. | Немає | 1080 | Текст | Класифікація, кластеризація | 2015 | [420][421] | C. Higuera et al. |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
UCI Mushroom Dataset | Ознаки та класифікація грибів | Наведено багато властивостей кожного гриба. | 8124 | Текст | Класифікація | 1987 | [422] | J. Schlimmer |
Secondary Mushroom Dataset | Ознаки та класифікація грибів | Змодельовані дані з більших і реалістичніших первинних записів грибів. Повністю відтворюваний. | 61069 | Текст | Класифікація | 2020 | [423][424] | D. Wagner et al. |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Forest Fires Dataset | Лісові пожежі та їх властивості. | Вилучено 13 ознак кожної пожежі. | 517 | Текст | Регресія | 2008 | [425][426] | P. Cortez et al. |
Іриси Фішера | Три типи ірисів описуються 4 різними ознаками. | Немає | 150 | Текст | Класифікація | 1936 | [427][428] | R. Fisher |
Plant Species Leaves Dataset | Шістнадцять зразків листя кожного із ста видів рослин. | Дано дескриптор форми, дрібномасштабне поле та гістограми текстури. | 1600 | Текст | Класифікація | 2012 | [429][430] | J. Cope et al. |
Soybean Dataset | База даних хворих рослин сої. | Наведено 35 ознак для кожної рослини. Рослини поділяються на 19 категорій. | 307 | Текст | Класифікація | 1988 | [431] | R. Michalski et al. |
Seeds Dataset | Вимірювання геометричних властивостей ядер трьох різних сортів пшениці. | Немає | 210 | Текст | Класифікація, кластеризація | 2012 | [432][433] | Charytanowicz et al. |
Covertype Dataset | мДані для прогнозування типу лісистості суворо на основі картографічних змінних. | Наведено багато географічних об’єктів. | 581,012 | Текст | Класифікація | 1998 | [434][435] | J. Blackard et al. |
Abscisic Acid Signaling Network Dataset | Дані для мережі сигналізації заводу. Мета – визначити набір правил, які керують мережею. | Немає | 300 | Текст | Причинно-відкриття | 2008 | [436] | J. Jenkens et al. |
Folio Dataset | 20 фотографій листя для кожного з 32 видів. | Немає | 637 | Зображення, текст | Класифікація, виявлення | 2015 | [437][438] | T. Munisami et al. |
Oxford Flower Dataset | Набір даних квітів 17 категорії. | Розділи поїздів/тестів, позначені зображення, | 1360 | Зображення, текст | Класифікація | 2006 | [146][439] | M-E Nilsback et al. |
Plant Seedlings Dataset | Набір даних 12 категорії саджанців рослин. | Марковані зображення, сегментовані зображення,Марковані зображення, сегментовані зображення, | 5544 | Зображення | Класифікація, виявлення | 2017 | [440] | Giselsson et al. |
Fruits 360 dataset | База даних із зображеннями 120 фруктів і овочів. | 100x100 пікселів, білий фон. | 82213 | Зображення(jpg) | Класифікація | 2017–2019 | [441][442] | Mihai Oltean, Horea Muresan |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Ecoli Dataset | Місця локалізації білків. | Наведено різні особливості місць локалізації білків. | 336 | Текст | Класифікація | 1996 | [443][444] | K. Nakai et al. |
MicroMass Dataset | Ідентифікація мікроорганізмів за даними мас-спектрометрії. | Різні функції мас-спектрометра. | 931 | Текст | Класифікація | 2013 | [445][446] | P. Mahe et al. |
Yeast Dataset | Прогнозування клітинної локалізації білків. | Вісім функцій наведено для кожного випадку. | 1484 | Текст | Класифікація | 1996 | [447][448] | K. Nakai et al. |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Tox21 Dataset | Прогнозування результатів біологічних аналізів. | Наведено хімічні дескриптори молекул | 12707 | Текст | Класифікація | 2016 | [449] | A. Mayr et al. |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Numenta Anomaly Benchmark (NAB) | Дані впорядковані, з мітками часу, однозначні метрики. Усі файли даних містять аномалії, якщо не зазначено інше. | Немає | 50+ files | Значення, розділені комами | Виявлення аномалій | 2016 (постійно оновлюється) | [450] | Numenta |
Skoltech Anomaly Benchmark (SKAB) | Кожен файл представляє один експеримент і містить одну аномалію. Набір даних являє собою багатоваріантний часовий ряд, зібраний із датчиків, встановлених на тестовому стенді. | Є дві розмітки для проблем виявлення викидів (точкові аномалії) та виявлення точок змін (колективні аномалії). | 30+ files (v0.9) | Значення, розділені комами | Виявлення аномалій | 2020 (постійно оновлюється) | [451][452] | Iurii D. Katser and Vyacheslav O. Kozitsin |
On the Evaluation of Unsupervised Outlier Detection: Measures, Datasets, and an Empirical Study | Більшість файлів даних адаптовано з даних репозитарію машинного навчання UCI, деякі зібрані з літератури. | обробляються відсутні значення, лише числові атрибути, різні відсотки аномалій, мітки | 1000+ files | ARFF | Виявлення аномалій | 2016 (можливо, оновлено новими наборами даних та/або результатами) | [453] | Campos et al. |
Цей розділ містить набори даних, які мають справу зі структурованими даними.
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
DBpedia Neural Question Answering (DBNQA) Dataset | Велика колекція Question to SPARQL, спеціально розроблена для відповіді на нейронні запитання відкритого домену через базу знань DBpedia. | Цей набір даних містить велику колекцію відкритих шаблонів Neural SPARQL та екземплярів для навчання машин Neural SPARQL; він був попередньо оброблений напівавтоматичними інструментами анотації, а також трьома експертами SPARQL. | 894,499 | Пари питання-запит | Відповідь на запитання | 2018 | [454][455] | Hartmann, Soru, and Marx et al. |
Vietnamese Question Answering Dataset (UIT-ViQuAD) | Велика колекція в'єтнамських питань для оцінки моделей MRC. | Цей набір даних містить понад 23 000 створених людьми пар питань і відповідей на основі 5 109 уривків із 174 в’єтнамських статей з Вікіпедії. | 23,074 | Пари питання-запит | Відповідь на запитання | 2020 | [456] | Nguyen et al. |
Vietnamese Multiple-Choice Machine Reading Comprehension Corpus(ViMMRC) | Колекція в’єтнамських питань з кількома відповідями для оцінки моделей MRC. | Цей корпус включає 2783 в’єтнамські запитання з кількома відповідями. | 2,783 | Пари питання-запит | Відповідь на запитання/Машинне розуміння прочитаного | 2020 | [457] | Nguyen et al. |
Набори даних, що складаються з рядків спостережень і стовпців атрибутів, що характеризують ці спостереження. Зазвичай використовується для регресійного аналізу або класифікації, але можуть використовуватися й інші типи алгоритмів. Цей розділ містить набори даних, які не вписуються в вищезазначені категорії.
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Dow Jones Index | Щотижневі дані запасів за І-ІІ квартали 2011 року. | Розраховані значення включали такі, як відсоткова зміна та лаги. | 750 | Значення, розділені комами | Класифікація, регресія, часові ряди | 2014 | [458][459] | M. Brown et al. |
Statlog (Australian Credit Approval) | Заявки на кредитні картки прийняті або відхилені та атрибути програми. | Назви атрибутів видаляються, а також ідентифікаційна інформація. Фактори були перемарковані. | 690 | Значення, розділені комами | Класифікація | 1987 | [460][461] | R. Quinlan |
eBay auction data | Дані аукціону з різних об’єктів eBay.com на аукціонах різної тривалості | Містить усі ставки, ідентифікатор ставки, час ставок та ціни відкриття. | ~ 550 | Текст | Регресія, класифікація | 2012 | [462][463] | G. Shmueli[en] et al. |
Statlog (German Credit Data) | Бінарна класифікація кредиту на «хороша» або «погана» з багатьма ознаками | Наведено різні фінансові особливості кожної людини. | 690 | Текст | Класифікація | 1994 | [464] | H. Hofmann |
Bank Marketing Dataset | Дані великої маркетингової кампанії, проведеної великим банком. | Наведено багато атрибутів клієнтів, до яких звертаються. Якщо клієнт підписався на банк також надається. | 45,211 | Текст | Класифікація | 2012 | [465][466] | S. Moro et al. |
Istanbul Stock Exchange Dataset | Декілька фондових індексів відстежувалися майже два роки. | Немає | 536 | Текст | Класифікація, регресія | 2013 | [464][467] | O. Akbilgic |
Default of Credit Card Clients | Дані про дефолт для тайванських кредиторів. | Для кожного облікового запису надаються різні функції. | 30,000 | Текст | Класифікація | 2016 | [468][469] | I. Yeh |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створенная | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Cloud DataSet | Дані про 1024 різних хмарах. | Вилучено характеристики зображення. | 1024 | Текст | Класифікація, кластеризація | 1989 | [470] | P. Collard |
El Nino Dataset | Океанографічні та приземні метеорологічні показання, отримані з серії буїв, розташованих по всій екваторіальній частині Тихого океану. | На кожному буї вимірюється 12 погодних атрибутів. | 178080 | Текст | Регресія | 1999 | [471] | Pacific Marine Environmental Laboratory[en] |
Greenhouse Gas Observing Network Dataset | Часовий ряд концентрацій парникових газів у 2921 осередку сітки в Каліфорнії створений за допомогою моделювання погоди. | Немає | 2921 | Текст | Регресія | 2015 | [472] | D. Lucas |
Atmospheric CO2 from Continuous Air Samples at Mauna Loa Observatory | Безперервні проби повітря на Гаваях, США. 44 роки рекордів. | Немає | 44 years | Текст | Регресія | 2001 | [473] | Mauna Loa Observatory[en] |
Ionosphere Dataset | Радарні дані з іоносфери. Завдання — розділити на хороші та погані результати радіолокації. | Немає | 351 | Текст | Класифікація | 1989 | [407][474] | Johns Hopkins University |
Ozone Level Detection Dataset | Два набори даних про рівень озону на землі. | Надано багато функцій, включаючи погодні умови на момент вимірювання. | 2536 | Текст | Класифікація | 2008 | [464][475] | K. Zhang et al. |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створенная | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Adult Dataset | Дані перепису 1994 року, що містять демографічні ознаки дорослих та їхні доходи. | Очищено та анонімно. | 48,842 | Значення, розділені комами | Класифікація | 1996 | [476] | United States Census Bureau |
Census-Income (KDD) | Зважені дані перепису з поточних опитувань населення 1994 та 1995 років. | Розділіть на навчальні та тестові набори. | 299,285 | Значення, розділені комами | Класифікація | 2000 | [477][478] | United States Census Bureau |
IPUMS Census Database | Дані перепису з районів Лос-Анджелеса та Лонг-Біч. | Немає | 256,932 | Текст | Класифікація, регресія | 1999 | [479] | IPUMS[en] |
US Census Data 1990 | Часткові дані перепису населення США 1990 року. | Результати рандомізовані та вибрані корисні атрибути. | 2,458,285 | Текст | Класифікація, регресія | 1990 | [480] | United States Census Bureau |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Bike Sharing Dataset | Погодинний і добовий підрахунок прокату велосипедів у великому місті. | Надано багато функцій, включаючи погоду, тривалість подорожі тощо. | 17,389 | Текст | Регресія | 2013 | [481][482] | H. Fanaee-T |
New York City Taxi Trip Data | Дані про подорожі жовтих і зелених таксі в Нью-Йорку. | Вказує місця посадки та висадки, тарифи та інші деталі поїздок. | 6 years | Текст | Класифікація, кластеризація | 2015 | [483] | New York City Taxi and Limousine Commission[en] |
Taxi Service Trajectory ECML PKDD | Траєкторії всіх таксі у великому місті. | Надано багато функцій, включаючи точки початку та зупинки. | 1,710,671 | Текст | Кластеризація, причинно-наслідкове відкриття | 2015 | [484][485] | M. Ferreira et al. |
METR-LA | Швидкість від петлеві детекторів на шосе округу Лос-Анджелес.. | Середня швидкість за 5 хвилин. | 7 094 304 з 207 датчиків і 34 272 кроків | Значення, розділені комами | Регресія, прогнозування | 2014 | [486] | Jagadish et al. |
PeMS | Швидкість, потік, зайнятість та інші показники від петлевих детекторів та інших датчиків на автостраді штату Каліфорнія, США. | Показник зазвичай зводиться до середнього з 5-хвилинними часовими кроками. | 39 000 індивідуальних детекторів, кожен із яких містить ряди часу | Значення, розділені комами | Регресія, прогнозування, прогнозування, інтерполяція | (оновлено в режимі реального часу) | [487] | California Department of Transportation |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Webpages from Common Crawl 2012 | Велика колекція веб-сторінок і спосіб їх з’єднання за допомогою гіперпосилань | Немає | 3.5B | Текст | кластеризація, класифікація | 2013 | [488] | V. Granville |
Internet Advertisements Dataset | Набір даних для прогнозування того, чи є дане зображення рекламою чи ні. | Функції кодують геометрію оголошень і фраз, що зустрічаються в URL-адресі. | 3279 | Текст | Класифікація | 1998 | [464][489] | N. Kushmerick |
Internet Usage Dataset | Загальна демографічна характеристика користувачів Інтернету. | Немає | 10,104 | Текст | Класифікація, кластеризація | 1999 | [490] | D. Cook |
URL Dataset | 120 днів URL-адрес великої конференції. | Наведено багато функцій кожної URL-адреси. | 2,396,130 | Текст | Класифікація | 2009 | [491][492] | J. Ma |
Phishing Websites Dataset | Набір даних фішингових веб-сайтів. | МНаведено багато функцій кожного сайту. | 2456 | Текст | Класифікація | 2015 | [493] | R. Mustafa et al. |
Online Retail Dataset | Онлайн-транзакції для британського інтернет-магазину. | Дані деталі кожної транзакції. | 541,909 | Текст | Класифікація, кластеризація | 2015 | [494] | D. Chen |
Freebase Simple Topic Dump | Freebase — це онлайн-інструмент структурування всіх людських знань. | Теми з Freebase були вилучені. | багато | Текст | Класифікація, кластеризація | 2011 | [464][495] | Freebase |
Farm Ads Dataset | Текст реклами ферми з сайтів. Надається бінарне схвалення або відхилення власниками вмісту. | Розраховані SVMlight розріджені вектори текстових слів в оголошеннях. | 4143 | Текст | Класифікація | 2011 | [496][497] | C. Masterharm et al. |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Poker Hand Dataset | 5 карткових рук із стандартної колоди з 52 карт. | Надаються атрибути кожної руки, включаючи покерні руки, утворені картами, які вона містить. | 1,025,010 | Текст | Регресія, класифікація | 2007 | [498] | R. Cattral |
Connect-4 Dataset | Містить усі дозволені 8-шарові позиції в грі Connect-4, в якій жоден із гравців ще не виграв і в якій наступний хід не вимушений. | Немає | 67,557 | Текст | Класифікація | 1995 | [499] | J. Tromp |
Chess (King-Rook vs. King) Dataset | База даних фіналу для білого короля та лади проти чорного короля. | Немає | 28,056 | Текст | Класифікація | 1994 | [500][501] | M. Bain et al. |
Chess (King-Rook vs. King-Pawn) Dataset | King+Rook versus King+Pawn on a7. | Немає | 3196 | Текст | Класифікація | 1989 | [501] | R. Holte |
Tic-Tac-Toe Endgame Dataset | Бінарна класифікація умов виграшу в хрестики-нулики. | Немає | 958 | Текст | Класифікація | 1991 | [502] | D. Aha |
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Housing Data Set | Середні значення будинку в Бостоні з пов’язаними атрибутами будинку та району. | Немає | 506 | Текст | Регресія | 1993 | [503] | D. Harrison et al. |
The Getty Vocabularies | структурована термінологія художньої та іншої матеріальної культури, архівні матеріали, візуальні сурогати та бібліографічні матеріали. | Немає | багато | Текст | Класифікація | 2015 | [504] | Getty Center |
Yahoo! Front Page Today Module User Click Log | Журнал кліків користувача для статей новин, які відображаються на вкладці "Вибрані" модуля Today на Yahoo! Титульна сторінка. | Сумісний аналіз з білінійною моделлю. | 45 811 883 відвідування користувачів | Текст | Регресія, кластеризація | 2009 | [505][506] | Chu et al. |
British Oceanographic Data Centre | Біологічні, хімічні, фізичні та геофізичні дані для океанів. Відстежено 22 тис. змінних. | Різні. | 22 тис. змінних, багато екземплярів | Текст | Регресія, кластеризація | 2015 | [507] | British Oceanographic Data Centre[en] |
Congressional Voting Records Dataset | Дані голосування всіх представників США з 16 питань. | Детально записуються про використання програм кожним користувачем. | 435 | Текст | Класифікація | 1987 | [508] | J. Schlimmer |
Entree Chicago Recommendation Dataset | Запис взаємодії користувачів із системою рекомендацій Entree Chicago. | Детально записуються дані про використання програми кожним користувачем. | 50,672 | Текст | Регресія, рекомендація | 2000 | [509] | R. Burke |
Insurance Company Benchmark (COIL 2000) | Інформація про клієнтів страхової компанії. | Багато функцій кожного клієнта та послуг, якими вони користуються. | 9,000 | Текст | Регресія, класифікація | 2000 | [510][511] | P. van der Putten |
Nursery Dataset | Дані від абітурієнтів до дитячих садків. | Включаються дані про сім'ю заявника та різні інші фактори. | 12,960 | Текст | Класифікація | 1997 | [512][513] | V. Rajkovic et al. |
University Dataset | Дані, що описують атрибути великої кількості університетів. | Немає | 285 | Текст | Класифікація, кластеризація | 1988 | [514] | S. Sounders et al. |
Blood Transfusion Service Center Dataset | Дані центру переливання крові. Надає дані про швидкість повернення донорів, частоту тощо. | Немає | 748 | Текст | Класифікація | 2008 | [515][516] | I. Yeh |
Record Linkage Comparison Patterns Dataset | Великий набір записів. Завдання — зв’язати між собою відповідні записи. | Процедура блокування застосовується для вибору лише певних пар записів. | 5,749,132 | Текст | Класифікація | 2011 | [517][518] | University of Mainz |
Nomao Dataset | Nomao збирає дані про місця з багатьох різних джерел. Завдання — виявити предмети, які описують одне й те саме місце. | Позначені копії. | 34,465 | Текст | Класифікація | 2012 | [519][520] | Nomao Labs |
Movie Dataset | Дані для 10 000 фільмів. | Для кожного фільму надано кілька функцій. | 10,000 | Текст | Класифікація, кластеризація | 1999 | [521] | G. Wiederhold |
Open University Learning Analytics Dataset | Інформація про студентів та їх взаємодію з віртуальним навчальним середовищем. | Жодного | ~ 30,000 | Текст | Класифікація, кластеризація, регресія | 2015 | [522][523] | J. Kuzilek et al. |
Mobile phone records | Телекомунікаційна діяльність та взаємодії | Агрегація за клітинками географічної сітки та кожні 15 хвилин. | великий | Текст | Класифікація, кластеризація, регресія | 2015 | [524] | G. Barlacchi et al. |
Оскільки набори даних бувають у безлічі форматів і іноді можуть бути важкими у використанні, була проведена значна робота в організації та стандартизації формату наборів даних, щоб полегшити їх використання для дослідження машинного навчання.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.