"use strict";(self.webpackChunk_toloka_portal_gatsby_renderer=self.webpackChunk_toloka_portal_gatsby_renderer||[]).push([[5035],{52893:function(t,e,s){s.d(e,{q:function(){return i}});var n=s(3748),r=s(85893),i=function(t){var e=t.title,s=t.description,i=t.language,a=t.className,o=t.og,l=t.children;return(0,r.jsx)(n.q,{language:i,title:e,description:s,og:o,className:a,children:l})}},23116:function(t,e,s){s.d(e,{o:function(){return x}});var n=s(89475),r=s(23913),i=s(41361),a=s(86557),o=s(34827),l=s(40219),c=s(81231),d=s(85893),x=function(){return(0,d.jsx)(c.$,{navItems:[{title:"Решения",links:[{text:"Для компьютер­ного зрения",link:"/ru/ml/computer-vision"},{text:"Для NLP-задач",link:"/ru/ml/natural-language-processing"},{text:"Полевые задания",link:"/ru/usecases/spatialcrowd"}]},{title:"Ресурсы",links:[{text:"База знаний",link:"/ru/knowledgebase"},{text:"Датасеты",link:"/ru/datasets"},{text:"Обучение краудсорсингу",link:"/ru/academy/education-partnerships"}]},{title:"Компания",links:[{text:"Соглашение с заказчиком",link:"/legal/customeragreement_probki"},{text:"Обратная связь",link:"/ru/docs/guide/troubleshooting/support.html"}]}],subscribe:{socialMedias:[{icon:(0,d.jsx)(r.p,{}),link:"https://www.linkedin.com/company/71852210/admin"},{icon:(0,d.jsx)(i.V,{}),link:"https://www.facebook.com/globaltoloka"},{icon:(0,d.jsx)(a.Z,{}),link:"https://twitter.com/tolokaai"},{icon:(0,d.jsx)(o.L,{}),link:"https://www.youtube.com/channel/UCGvsgFPVyOwuN8aJJbMem9A"},{icon:(0,d.jsx)(n.f,{}),link:"https://github.com/Toloka/toloka-kit#toloka-kit"}],form:{inputBlock:{label:"Подписаться на обновления",placeholder:"Введите свою почту"},sendingData:{address:"/api/sender/subscribe",listId:"0ASPRWP3-H6V"},button:{view:"default",text:"Подписаться",size:"l",type:"submit"},successText:"Готово! Вскоре вы получите от нас письмо по электронной почте — просто нажмите на ссылку для подтверждения. Если оно не появляется, проверьте папку со спамом."}},bottomBlock:{logo:{icon:(0,d.jsx)(l.e,{}),link:"/"},logoText:(0,d.jsxs)(d.Fragment,{children:["Разработано инженерами ",(0,d.jsx)("br",{})," для инженеров"]}),manageCookiesText:"Управление cookies",info:"© 2014–"+(new Date).getFullYear()+" Intertech Services AG"}})}},31278:function(t,e,s){s.d(e,{m:function(){return c}});var n=s(19058),r=s(27152),i=s(69077),a=s(40219),o=s(56338),l=s(85893),c=function(t){var e=t.defaultBackground,s=t.links,c=void 0===s?[(0,l.jsx)(o.e,{href:"/ru/get-started",children:"Войти"},1)]:s;return(0,l.jsx)(n.h,{defaultBackground:e,headerLogoProps:{icon:(0,l.jsx)(a.e,{}),link:"/"},headerMenuProps:{headerMenuNav:[{title:"ML-задачи",type:"default",items:[{type:"navigationContainer",content:[{icon:(0,l.jsx)(i.x,{}),text:"Разметка данных для компьютер­ного зрения",link:"/ru/ml/computer-vision"},{icon:(0,l.jsx)(r.M,{}),text:"Разметка данных для NLP-задач",link:"/ru/ml/natural-language-processing"}]}]},{title:"База знаний",type:"link",link:"/ru/knowledgebase"},{title:"Датасеты",type:"link",link:"/ru/datasets"},{title:"Обучение краудсорсингу",type:"link",link:"/ru/academy/education-partnerships"}],links:c}})}},69077:function(t,e,s){s.d(e,{x:function(){return r}});var n=s(85893),r=function(){return(0,n.jsxs)("svg",{xmlns:"http://www.w3.org/2000/svg",width:"24",height:"24",fill:"none",children:[(0,n.jsx)("path",{d:"M12 9a3 3 0 1 0 0 6 3 3 0 0 0 0-6Z",stroke:"#fff",strokeWidth:"2"}),(0,n.jsx)("path",{d:"M12 5c-2.85 0-5.39.84-7.19 2.15C3.01 8.46 2 10.2 2 12c0 1.81 1 3.54 2.81 4.85A12.31 12.31 0 0 0 12 19c2.85 0 5.39-.84 7.19-2.15C20.99 15.54 22 13.8 22 12c0-1.81-1-3.54-2.81-4.85A12.31 12.31 0 0 0 12 5Z",stroke:"#fff",strokeWidth:"2"})]})}},27152:function(t,e,s){s.d(e,{M:function(){return r}});var n=s(85893),r=function(){return(0,n.jsxs)("svg",{xmlns:"http://www.w3.org/2000/svg",width:"24",height:"24",fill:"none",children:[(0,n.jsx)("path",{d:"M3 16V8M8.28 16 3 8M8.28 16V8M11.44 16V8M11.44 16h3.17M17.78 16V8",stroke:"#fff",strokeWidth:"2",strokeMiterlimit:"79.84",strokeLinecap:"round",strokeLinejoin:"round"}),(0,n.jsx)("path",{d:"M17.78 8h1.72a2.5 2.5 0 0 1 2.5 2.5v0a2.5 2.5 0 0 1-2.5 2.5h-1.72M1 5.5v0A4.5 4.5 0 0 1 5.5 1h13A4.5 4.5 0 0 1 23 5.5v0m0 13v0a4.5 4.5 0 0 1-4.5 4.5h-13A4.5 4.5 0 0 1 1 18.5v0",stroke:"#fff",strokeWidth:"2",strokeLinecap:"round",strokeLinejoin:"round"})]})}},41361:function(t,e,s){s.d(e,{V:function(){return r}});var n=s(85893),r=function(){return(0,n.jsx)("svg",{xmlns:"http://www.w3.org/2000/svg",width:"32",height:"32",fill:"none",children:(0,n.jsx)("path",{fillRule:"evenodd",clipRule:"evenodd",d:"M16 32a16 16 0 1 0 0-32 16 16 0 0 0 0 32Zm4-21.34h-1.46c-1.15 0-1.37.56-1.37 1.38V14h2.59l-.36 2.84h-2.23V24h-2.85v-7.16H12V14h2.32v-2.24c0-2.44 1.45-3.76 3.55-3.76 1.01 0 1.88.08 2.13.11v2.55Z",fill:"#fff",fillOpacity:".4"})})}},89475:function(t,e,s){s.d(e,{f:function(){return r}});var n=s(85893),r=function(){return(0,n.jsxs)("svg",{xmlns:"http://www.w3.org/2000/svg",width:"32",height:"32",fill:"none",children:[(0,n.jsx)("path",{fillRule:"evenodd",clipRule:"evenodd",d:"M16 0C12.2 0 8.54 1.38 5.64 3.91a16.51 16.51 0 0 0-5.42 9.87c-.61 3.85.13 7.79 2.1 11.12a16.08 16.08 0 0 0 8.64 7.07c.8.16 1.1-.35 1.1-.79l-.03-3.05c-4.45.99-5.39-1.94-5.39-1.94-.73-1.9-1.78-2.4-1.78-2.4-1.45-1.02.11-1 .11-1 1.6.12 2.45 1.7 2.45 1.7 1.43 2.5 3.75 1.78 4.66 1.35a3.53 3.53 0 0 1 1.02-2.19c-3.55-.4-7.3-1.82-7.3-8.1a6.43 6.43 0 0 1 1.66-4.41 6.04 6.04 0 0 1 .15-4.35s1.34-.44 4.4 1.68c2.63-.73 5.4-.73 8.02 0 3.04-2.1 4.4-1.68 4.4-1.68.86 2.26.32 3.93.15 4.35a6.43 6.43 0 0 1 1.65 4.4c0 6.3-3.75 7.7-7.31 8.1.57.5 1.08 1.5 1.08 3.04l-.01 4.5c0 .43.28.95 1.1.78a16.08 16.08 0 0 0 8.61-7.07 16.75 16.75 0 0 0 2.1-11.12 16.51 16.51 0 0 0-5.42-9.86A15.77 15.77 0 0 0 16.01 0Z",fill:"#fff",fillOpacity:".4"}),(0,n.jsx)("path",{d:"M6.07 23.55c-.04.09-.16.11-.27.06-.1-.06-.18-.17-.15-.25.04-.08.17-.1.27-.05s.18.16.14.24ZM6.71 24.3c-.07.07-.22.03-.32-.08a.26.26 0 0 1-.05-.34c.08-.07.22-.04.33.08.1.11.12.27.04.34ZM7.35 25.24c-.1.07-.27 0-.36-.14-.1-.14-.1-.32 0-.4.1-.06.26 0 .36.15.09.14.1.32 0 .4ZM8.22 26.15a.3.3 0 0 1-.23.06.3.3 0 0 1-.2-.13c-.13-.13-.17-.32-.08-.42.09-.1.26-.07.41.06.15.14.18.33.09.42l.01.01ZM9.4 26.68c-.04.13-.22.2-.4.14-.18-.06-.3-.21-.26-.34.03-.13.21-.19.4-.13.18.05.3.2.26.33ZM10.71 26.78c0 .14-.15.25-.34.25-.19 0-.34-.1-.35-.24 0-.13.15-.24.35-.25.19 0 .34.1.34.24ZM11.93 26.57c.02.13-.1.27-.3.3-.19.04-.35-.04-.38-.18-.02-.13.11-.27.3-.3.18-.03.36.05.38.18Z",fill:"#fff",fillOpacity:".4"})]})}},23913:function(t,e,s){s.d(e,{p:function(){return r}});var n=s(85893),r=function(){return(0,n.jsx)("svg",{xmlns:"http://www.w3.org/2000/svg",width:"32",height:"32",fill:"none",children:(0,n.jsx)("path",{fillRule:"evenodd",clipRule:"evenodd",d:"M16 32a16 16 0 1 0 0-32 16 16 0 0 0 0 32ZM8 10.32c0-1.17.97-2.11 2.15-2.11 1.2 0 2.16.94 2.16 2.1 0 1.17-.97 2.12-2.16 2.12A2.14 2.14 0 0 1 8 10.32Zm.26 2.71h3.18c.14 0 .25.12.25.26v10.34c0 .14-.11.26-.25.26H8.26a.26.26 0 0 1-.26-.26V13.29c0-.14.11-.26.26-.26Zm11.66 0c-1.29 0-2.23.55-2.8 1.16v-.65a.25.25 0 0 0-.27-.26H13.8a.25.25 0 0 0-.26.26v10.1c0 .13.11.25.26.25h3.18c.14 0 .26-.12.26-.25v-5c0-1.69.46-2.34 1.66-2.34 1.3 0 1.4 1.05 1.4 2.43v4.9c0 .14.11.26.25.26h3.2c.14 0 .25-.12.25-.25V18.1c0-2.5-.49-5.07-4.08-5.07Z",fill:"#fff",fillOpacity:".4"})})}},86557:function(t,e,s){s.d(e,{Z:function(){return r}});var n=s(85893),r=function(){return(0,n.jsx)("svg",{xmlns:"http://www.w3.org/2000/svg",width:"32",height:"32",viewBox:"0 0 32 32",fill:"none",children:(0,n.jsx)("path",{fillRule:"evenodd",clipRule:"evenodd",d:"M16 32C24.8366 32 32 24.8366 32 16C32 7.16344 24.8366 0 16 0C7.16344 0 0 7.16344 0 16C0 24.8366 7.16344 32 16 32ZM11.8486 22.0315C12.565 22.1401 13.2772 22.1943 13.9691 22.1943C14.7698 22.1943 15.5435 22.1216 16.264 21.9766C17.7327 21.681 18.9689 21.1029 19.9384 20.2585C20.7219 19.576 21.3124 18.7301 21.6935 17.744C22.0964 16.7018 22.2651 15.4995 22.1948 14.1707C22.1764 13.821 22.2754 13.4875 22.4737 13.2314C23.2655 12.2088 23.3234 12.1245 23.3699 12.0567L23.3704 12.0559C23.3819 12.0392 23.3906 12.0265 23.4231 11.9835L24 11.221L23.0239 11.2637C22.9816 11.2655 22.9411 11.2682 22.9018 11.2714L23.4978 9.62496L22.5837 9.92955C22.337 10.0118 22.1394 10.0837 21.9653 10.1471L21.9627 10.1481C21.6722 10.2539 21.4572 10.3321 21.1654 10.4054C20.568 9.8861 19.8158 9.58588 18.9874 9.53665C18.2065 9.49025 17.4187 9.67738 16.769 10.0635C16.184 10.4113 15.7438 10.8993 15.4964 11.4747C15.2839 11.9689 15.2197 12.5202 15.3054 13.0915C13.2074 12.8099 11.4397 11.8481 10.0441 10.2267L9.60277 9.71409L9.27282 10.2999C8.85595 11.04 8.71752 11.8863 8.88293 12.683C8.9508 13.0097 9.06628 13.3213 9.22606 13.6132L8.84728 13.4713L8.80236 14.0832C8.75683 14.7049 8.97082 15.4303 9.37499 16.024C9.48864 16.1911 9.63524 16.3748 9.82091 16.5558L9.62511 16.5268L9.86388 17.2279C10.1777 18.1492 10.8297 18.8619 11.6756 19.2581C10.8308 19.6047 10.1483 19.8261 9.02636 20.1829L8 20.5093L8.94799 21.0106C9.30944 21.2017 10.5868 21.84 11.8486 22.0315Z",fill:"white",fillOpacity:"0.4"})})}},34827:function(t,e,s){s.d(e,{L:function(){return r}});var n=s(85893),r=function(){return(0,n.jsx)("svg",{xmlns:"http://www.w3.org/2000/svg",width:"32",height:"32",fill:"none",children:(0,n.jsx)("path",{fillRule:"evenodd",clipRule:"evenodd",d:"M16 32a16 16 0 1 0 0-32 16 16 0 0 0 0 32Zm7.32-20.72c-.43-.77-.9-.91-1.86-.97-.96-.06-3.37-.09-5.46-.09s-4.5.03-5.46.1c-.95.05-1.42.19-1.86.96-.45.77-.68 2.1-.68 4.44 0 2.33.23 3.67.68 4.44.44.77.9.9 1.86.97.96.06 3.37.1 5.46.1s4.5-.04 5.46-.1c.96-.06 1.43-.2 1.86-.97.45-.77.68-2.1.68-4.43v-.01c0-2.34-.23-3.67-.68-4.44ZM14 12.72l5 3-5 3v-6Z",fill:"#fff",fillOpacity:".4"})})}},92746:function(t,e,s){s.r(e),s.d(e,{default:function(){return B}});var n=s(74533),r=s(88586),i=s(52893),a=s(11467),o=s(7203),l=s(20980),c=s(41739),d=s(26192),x=s(76736),h=s(35761),u=s(50583),g=s(99653),j=s(39332),f=s(15218),p=s(84541),k=s(96598),v=s(4511),w=s(41752),b=s(51512),m=s(82298),_=s(92401),C=s(3468),R=s(31278),M=s(23116),y=s(85893);function B(){return(0,y.jsxs)(y.Fragment,{children:[(0,y.jsx)(i.q,{og:{img:"https://tlk-infra-front.azureedge.net/portal-static/images/ru-pages/og/datasets.jpg"},language:"ru"}),(0,y.jsx)(n.n,{}),(0,y.jsxs)(r.i,{children:[(0,y.jsx)(R.m,{}),(0,y.jsx)(w.p,{title:"Открытые датасеты",text:(0,y.jsxs)(y.Fragment,{children:["Толока — крупнейший источник размеченных людьми данных для машинного обучения."," ",(0,y.jsx)(C.p.Desktop,{children:(0,y.jsx)("br",{})}),"Каждый день тысячи пользователей выполняют сотни заданий и производят миллионы оценок."," ",(0,y.jsx)(C.p.Desktop,{children:(0,y.jsx)("br",{})}),"Толока предоставляет большие объёмы качественных данных для проведения академических исследований и разработки инноваций в разных областях."]})}),(0,y.jsx)(b.w,{offset:40}),(0,y.jsxs)(m.X,{info:(0,y.jsxs)(y.Fragment,{children:[(0,y.jsxs)("p",{style:{marginTop:0},children:["Внимание! Общедоступные датасеты предназначены только для некоммерческого использования со ссылкой на Толоку как источник данных. ",(0,y.jsx)("br",{})," Если вы планируете использовать датасеты в коммерческих целях, свяжитесь с нами для согласования."]}),(0,y.jsx)(b.w,{offset:40}),(0,y.jsx)(a.V.Line,{})]}),showMore:{text:"View more",size:"l",view:"pseudo"},cards:[{link:{src:"https://tlk.s3.yandex.net/dataset/TlkBusinessIdRec.zip",text:"Скачать",info:(0,y.jsxs)(y.Fragment,{children:["ZIP archive, 19.5 GB ",(0,y.jsx)("br",{}),"Файл с данными: data.tsv",(0,y.jsx)("br",{}),"Фотографии: photos/"]})},icon:(0,y.jsx)(p.A,{}),title:"Toloka Business ID Recognition",text:"Этот набор данных был создан по заказу Яндекс.Справочника и содержит 10 000 фотографий табличек с информацией о российских организациях, в том числе ИНН и ОГРН. Толока использовалась как для съёмки фотографий, так и для распознавания ИНН и ОГРН.",category:"C_V"},{link:{src:"https://tlk.s3.yandex.net/dataset/TlkWaterMeters.zip",text:"Скачать",info:(0,y.jsxs)(y.Fragment,{children:["ZIP archive, 981 MB",(0,y.jsx)("br",{}),"Фотографии: images/ ",(0,y.jsx)("br",{}),"Маски: masks/",(0,y.jsx)("br",{}),"Коллажи: collage/"]})},icon:(0,y.jsx)(k.m,{}),title:"Toloka WaterMeters",text:"Этот набор данных был сформирован Романом Куцевым (TrainingData.ru). Содержит 1244 изображения счётчиков горячей и холодной воды, а также показания счётчиков и координаты дисплеев, отображающих эти показания. На каждом изображении ровно один счётчик. В архив также входят фотографии результатов сегментации с масками и коллажами. Толока использовалась для съёмки фотографий, их сегментации и распознавания показаний.",category:"C_V"},{link:{src:"https://github.com/vladislavneon/RuBQ/tree/master/RuBQ_2.0",text:"Перейти",info:(0,y.jsxs)(y.Fragment,{children:["Для разработчиков: RuBQ_2.0_dev.json ",(0,y.jsx)("br",{}),"Тестовый массив: RuBQ_2.0_test.json",(0,y.jsx)("br",{}),"Параграфы: RuBQ_2.0_paragraphs.json"]})},icon:(0,y.jsx)(u.n,{}),title:"RuBQ 2.0: An Innovated Russian Question Answering Dataset",text:"RuBQ 2.0 — вторая версия RuBQ. Он содержит 2,910 вопросов, снабженных ответами и SPARQL-запросами. Датасет подходит для оценки вопросно-ответного поиска по базам знаний (KBQA), оценки решений задач MRC и Open-Domain Question Answering, а также может быть использован для экспериментов в исследованиях гибридного вопросно-ответного поиска, способного сочетать сильные стороны вопросно-ответного поиска по текстам и по базам знаний для получения наилучшего результата.",category:"N_L_P"},{link:{src:"https://github.com/vladislavneon/RuBQ/tree/master/RuBQ_1.0",text:"Перейти",info:(0,y.jsxs)(y.Fragment,{children:["Для разработчиков: RuBQ_1.0_dev.json ",(0,y.jsx)("br",{}),"Тестовый массив: RuBQ_1.0_test.json"]})},icon:(0,y.jsx)(u.n,{}),title:"RuBQ 1.0: A Russian Dataset for Question Answering over Wikidata",text:(0,y.jsxs)(y.Fragment,{children:["RuBQ 1.0 (",(0,y.jsx)(v.r,{href:"https://github.com/vladislavneon/RuBQ/tree/master/RuBQ_1.0",target:"_blank",children:"Russian Knowledge Base Questions"}),", произносится [´rubik]) — первый русскоязычный датасет для вопросно-ответного поиска по базам знаний (Knowledge Base Question Answering, KBQA) и семантического анализа. Он состоит из 1,500 вопросов различной сложности, снабженных соответствующими SPARQL-запросами, ответами и машинным переводом текста вопроса на английский язык. Вместе с датасетом также предоставлено подмножество базы знаний Wikidata, содержащее все сущности с русскоязычными именами. Датасет рекомендуется использовать как dev и test наборы данных для таких подходов как межязыковой перенос, few-shot learning, или обучение на синтетических данных."]}),category:"N_L_P"},{link:{src:"https://tlk.s3.yandex.net/dataset/TlkPersonaChatRus.zip",text:"Скачать",info:(0,y.jsxs)(y.Fragment,{children:["ZIP archive, 8.19 MB ",(0,y.jsx)("br",{}),"Профили: profile.tsv ",(0,y.jsx)("br",{}),"Диалоги: dialogues.tsv"]})},icon:(0,y.jsx)(x.q,{}),title:"Toloka Persona Chat Rus",text:"Этот датасет включает 10 000 диалогов, предназначенных для исследования работы чат-ботов. Он составлен в лаборатории нейронных систем и глубокого обучения МФТИ для исследования разговорного искусственного интеллекта. Датасет Persona Chat Rus содержит профили с описанием личности человека и диалоги между участниками исследования.",category:"N_L_P"},{link:{src:"https://tlk.s3.yandex.net/dataset/RuADReCT.zip",text:"Скачать",info:(0,y.jsxs)(y.Fragment,{children:["ZIP archive, 95.6 KB ",(0,y.jsx)("br",{}),"Обучающие задания: task2_ru_train.tsv",(0,y.jsx)("br",{}),"Данные о валидации: task2_ru_validation.tsv",(0,y.jsx)("br",{}),"Данные тестирования: task2_ru_test.tsv",(0,y.jsx)("br",{}),"Скрипт для скачивания твитов: download_tweets.py",(0,y.jsx)("br",{}),"Описание и инструкции по запуску скрипта: Readme.md"]})},icon:(0,y.jsx)(c.R,{}),title:"The Russian Adverse Drug Reaction Corpus of Tweets (RuADReCT)",text:(0,y.jsxs)(y.Fragment,{children:["Создан для дорожек соревнования Social Media Mining for Health Applications (","",(0,y.jsx)(v.r,{href:"https://aclanthology.org/2020.smm4h-1.4/",target:"_blank",children:"#SMM4H '20"}),") этот датасет включает 9515 твитов, описывающих проблемы пользователей со здоровьем. Каждый твит был оценён в зависимости от того, содержит ли он сообщение о неблагоприятном побочном эффекте, возникшем после приёма лекарственного препарата. Датасет подготовлен совместно с UPenn HLP Center и НИЛ «Хемоинформатика и молекулярное моделирование» (КФУ)."]}),category:"N_L_P"},{link:{src:"https://tlk.s3.yandex.net/dataset/LRWC.zip",text:"Скачать",info:(0,y.jsxs)(y.Fragment,{children:["ZIP archive, 2.01 MB ",(0,y.jsx)("br",{}),"Входные данные: lrwc-1.1-assignments.tsv",(0,y.jsx)("br",{}),"Обучающие задания: toloka-isa-50-skip-300-train-hit.tsv",(0,y.jsx)("br",{}),"Агрегированные результаты: lrwc-1.1-aggregated.tsv"]})},icon:(0,y.jsx)(d.v,{}),title:"Lexical Relations from the Wisdom of the Crowd (LRWC)",text:(0,y.jsxs)(y.Fragment,{children:["Этот датасет был составлен Дмитрием Усталовым в 2017 году для метода"," ",(0,y.jsx)(v.r,{href:"https://austriaca.at/8437-9",target:"_blank",children:"Watlink"}),". Датасет содержит мнения носителей русского языка о родо-видовых отношениях между словами: связи общего (гиперонима) и частного (гипонима) на 10 600 парах слов. За основу датасета взяты существительные из Национального корпуса русского языка и отношения из лексических онтологий RuThes и RuWordNet."]}),category:"N_L_P"},{link:{src:"https://tlk.s3.yandex.net/dataset/TlkAggFtrs.zip",text:"Скачать",info:(0,y.jsxs)(y.Fragment,{children:["ZIP archive, 0.45 MB ",(0,y.jsx)("br",{}),"Эталонные оценки: golden_labels.tsv",(0,y.jsx)("br",{}),"Действительнозначные показатели: features.tsv",(0,y.jsx)("br",{}),"Оценки исполнителей: crowd_labels.tsv"]})},icon:(0,y.jsx)(g.p,{}),title:"Toloka Aggregation Features",text:"Датасет содержит около 60 000 краудсорсинговых оценок, собранных в Толоке для 1000 заданий, включая правильные ответы почти для всех заданий. Нужно было классифицировать сайты по пяти категориям в зависимости от того, есть ли на них контент для взрослых. Дополнительно к каждому заданию прилагаются 52 действительнозначных показателя, которые можно использовать для предсказания категории.",category:"N_L_P"},{link:{src:"https://tlk.s3.yandex.net/dataset/WordSenseRus.zip",text:"Скачать",info:(0,y.jsxs)(y.Fragment,{children:["ZIP archive, 2.23 MB ",(0,y.jsx)("br",{}),"Обучающие задания: tasks-train.tsv ",(0,y.jsx)("br",{}),"Основные задания: tasks-test.tsv ",(0,y.jsx)("br",{}),"Общие результаты: assignments_01-12-2017.tsv.xz ",(0,y.jsx)("br",{}),"Агрегированные результаты: aggregated_results_pool_1036853 __ 2017_12_01.tsv ",(0,y.jsx)("br",{}),"Согласованность ответов: agreement.txt ",(0,y.jsx)("br",{}),"Отчет о проверке результатов: report-curated.tsv.xz и tasks-eval.tsv.xz ",(0,y.jsx)("br",{}),"Дополнение: tasks-eval.tsv.xz ",(0,y.jsx)("br",{}),"Общий агрегированный датасет: bts-rnc-crowd.tsv"]})},icon:(0,y.jsx)(f.D,{}),title:"Human-Annotated Sense-Disambiguated Word Contexts for Russian",text:(0,y.jsxs)(y.Fragment,{children:["Этот набор данных был сформирован Дмитрием Усталовым в 2017 году. Содержит аннотированные людьми смысловые идентификаторы для 2562 контекстов употребления 20 слов, которые были использованы в дорожке"," ",(0,y.jsx)(v.r,{href:"https://www.dialog-21.ru/media/4539/panchenkoaplusetal.pdf",target:"_blank",children:"RUSSE’2018 shared task on Word Sense Induction and Disambiguation for Russian"}),". По результатам оценки организаторы дорожки дополнительно проверяли и отбирали все контексты."]}),category:"N_L_P"},{link:{src:"https://tlk.s3.yandex.net/dataset/CrowdSpeech.zip",text:"Download",info:(0,y.jsxs)(y.Fragment,{children:["ZIP archive, 2.6 MB ",(0,y.jsx)("br",{}),"crowdspeech-dev-clean:",(0,y.jsx)("br",{}),"Оценки исполнителей: crowd_labels.csv ",(0,y.jsx)("br",{}),"Эталонные оценки: gt.csv ",(0,y.jsx)("br",{}),"crowdspeech-dev-other: ",(0,y.jsx)("br",{}),"Оценки исполнителей: crowd_labels.csv ",(0,y.jsx)("br",{}),"Эталонные оценки: gt.csv ",(0,y.jsx)("br",{}),"crowdspeech-test-clean: ",(0,y.jsx)("br",{}),"Оценки исполнителей: crowd_labels.csv ",(0,y.jsx)("br",{}),"Эталонные оценки: gt.csv ",(0,y.jsx)("br",{}),"crowdspeech-test-other: ",(0,y.jsx)("br",{}),"Оценки исполнителей: crowd_labels.csv ",(0,y.jsx)("br",{}),"Эталонные оценки: gt.csv"]})},icon:(0,y.jsx)(h.q,{}),title:"CrowdSpeech",text:(0,y.jsxs)(y.Fragment,{children:["Этот набор данных содержит транскрипции аудиозаписей из набора данных"," ",(0,y.jsx)(v.r,{href:"https://www.openslr.org/12",target:"_blank",children:"LibriSpeech"}),", полученные в Толоке способом, описанным в статье для трека Datasets and Benchmarks на Neurips '21, —"," ",(0,y.jsx)(v.r,{href:"https://openreview.net/forum?id=3_hgF1NAXU7",target:"_blank",children:"CrowdSpeech and VoxDIY: Benchmark Datasets for Crowdsourced Audio Transcription"}),"."]}),category:"N_L_P"},{link:{src:"https://tlk.s3.yandex.net/dataset/TlkAgg2.zip",text:"Скачать",info:(0,y.jsxs)(y.Fragment,{children:["ZIP archive, 3.08 MB ",(0,y.jsx)("br",{}),"Оценки исполнителей: crowd_labels.tsv ",(0,y.jsx)("br",{}),"Эталонные оценки: golden_labels.tsv"]})},icon:(0,y.jsx)(o.q,{}),title:"Toloka Aggregation Relevance 2",text:"Этот датасет предназначен для оценки методов агрегации ответов в краудсорсинге. В нём содержится почти полмиллиона анонимизированных оценок, собранных Яндексом в 2016 году на проекте «Релевантность (две градации)». В рамках этого проекта для каждой пары запрос — документ пользователи проводили бинарную оценку: релевантно или нерелевантно. В датасет также входят контрольные варианты оценок, предназначенные для сравнения методов агрегации.",category:"crowdsourcing"},{link:{src:"https://tlk.s3.yandex.net/dataset/TlkAgg5.zip",text:"Скачать",info:(0,y.jsxs)(y.Fragment,{children:["ZIP archive, 7.17 MB ",(0,y.jsx)("br",{}),"Оценки исполнителей: crowd_labels.tsv",(0,y.jsx)("br",{}),"Эталонные оценки: golden_labels.tsv",(0,y.jsx)("br",{}),"Блокировки исполнителей: bans.tsv"]})},icon:(0,y.jsx)(l.D,{}),title:"Toloka Aggregation Relevance 5",text:"Этот датасет предназначен для оценки методов агрегации ответов в краудсорсинге. В нём содержится почти миллион анонимизированных оценок, собранных в 2016 году в Яндексе на проекте «Релевантность (пять градаций)». В рамках этого проекта для каждой пары запрос — документ пользователи проводили оценку по шкале от 1 до 5: от наиболее релевантных до наименее релевантных. В датасет также входят контрольные варианты оценок, предназначенные для сравнения методов агрегации.",category:"crowdsourcing"},{link:{src:"https://tlk.s3.yandex.net/dataset/TlkUsersAndTasks.zip",text:"Скачать",info:(0,y.jsxs)(y.Fragment,{children:["ZIP archive, 1.07 GB ",(0,y.jsx)("br",{}),"Выполненные задания: assignments.tsv",(0,y.jsx)("br",{}),"Информация о проектах: projects.tsv",(0,y.jsx)("br",{}),"Анонимизированная информация о пользователях: users.tsv",(0,y.jsx)("br",{}),"Посещения страницы со списком заданий и выбор заданий: visits.tsv"]})},icon:(0,y.jsx)(f.D,{}),title:"Пользователи и задания в Толоке",text:(0,y.jsxs)(y.Fragment,{children:['Датасет сформирован для статьи, представленной на конференции KDD 2020 под названием "',(0,y.jsx)(v.r,{href:"https://dl.acm.org/doi/10.1145/3394486.3403369",target:"_blank",children:"Prediction of Hourly Earnings and Completion Time on a Crowdsourcing Platform"}),'". Он содержит данные сессий 161 377 пользователей, выполнявших 18 млн заданий в Толоке в течение трёх месяцев (сентябрь — ноябрь 2018 года). Датасет включает временные метки, анонимизированные идентификаторы проектов и пользователей, информацию о начисленных бонусах, число поставленных микрозаданий, инструкции к заданиям, описание схемы данных, полученные ответы на задания, а также описательные свойства заданий.']}),category:"crowdsourcing"},{link:{src:"https://tlk.s3.yandex.net/dataset/crowd-kit/imdb-wiki-sbs.zip",text:"Скачать",info:(0,y.jsxs)(y.Fragment,{children:["ZIP archive, 9 MB ",(0,y.jsx)("br",{}),"Оценки исполнителей: crowd_labels.csv ",(0,y.jsx)("br",{}),"Эталонные оценки: gt.csv"]})},icon:(0,y.jsx)(j.Q,{}),title:"IMDB-WIKI-SbS",text:(0,y.jsxs)(y.Fragment,{children:["Этот набор данных содержит 9 150 фотографий из популярного набора данных IMDB-WIKI, сбалансированных по возрасту и полу изображённых на них людей, для которых в Толоке собрано 250 249 попарных сравнений. Набор данных описан в статье на воркшопе Data-Centric AI в рамках NeurIPS '20 —"," ",(0,y.jsx)(v.r,{href:"https://dl.acm.org/doi/10.1145/3394486.3403369",target:"_blank",children:"IMDB-WIKI-SbS: An Evaluation Dataset for Crowdsourced Pairwise Comparisons"}),"."]}),category:"crowdsourcing"}],children:[(0,y.jsx)(b.w,{offset:24}),(0,y.jsx)(a.V.Line,{}),(0,y.jsx)(b.w,{offset:24}),(0,y.jsxs)("p",{style:{margin:0},children:["У вас уже есть датасет, которым вы хотите поделиться? Тогда"," ",(0,y.jsx)(v.r,{href:"mailto:customercare@toloka.ai",children:"напишите нам"}),"."]})]}),(0,y.jsx)(_.F,{leftColumn:{title:{text:(0,y.jsxs)(y.Fragment,{children:["Соберите"," ",(0,y.jsx)(C.p.Desktop,{children:(0,y.jsx)("br",{})}),"свой датасет"]})},text:"Воспользуйтесь преимуществами технологий и ресурсов Яндекса, включая миллионы исполнителей, доступных для ваших проектов 24/7.",links:[{view:"action",text:"Начать",size:"l",type:"link",url:"/ru/get-started"}]}}),(0,y.jsx)(b.w,{offset:40}),(0,y.jsx)(M.o,{})]})]})}}}]);