Интернеттегі барлығы тек бастамасы Жасанды интеллектуалды оқыту Адамзат туралы. Қазір технологиялық компаниялар бірін қолданады Ең көне білім салымы: Кітап сөресі Кітапхана.
Инстаграмдағы осы жазбаны қараңызХарвард кітапханасы бөліскен басылым (@harvardlibary)
Көпшілігі Бір миллион кітап, тіпті ескі дәуірде де, он бесінші ғасырда жарияланды — және 254 тілде — олар коллекцияның бөлігі Гарвард университеті Мен білемін бөлу Жақында зерттеушілермен. Көп ұзамай, ежелгі газеттер мен үкіметтік құжаттар қазыналары да қолына түседі Бостонның қоғамдық кітапханасы.
Тегіс көлеміне қол жеткізу үшін қазыналардың ашылуы технологиялық компаниялар үшін деректер активі болуы мүмкін Олар жаңалықтармен, бейнелеу суретшілерінен және басқалардан қойылады Олардың Жаратушысы олардың келісімінсіз қолданылады AI-ден Чатбелтті оқыту.
Қоғамдық ауқым
«Бұл абай болған шешім Көпшілік алдында ақпараттан бастаңызСебебі, бұл уақытта бұл кезде бұл аз қайшылықты болғандықтан, сіз әлі де авторлық құқыққа ие, Бертон Дэвис мырза, Майкрософтының заңгерінің орынбасары.
Дэвис кітапханалардың да қорғалғанын айтты «Мәдени, тарихи және тілдік мәліметтердің көп мөлшері»Интернеттегі түсініктемелердің соңғы онжылдықтарында, оның ең көп сөйлесуі туралы хабарламалар. Ақпараттан тыс ақпарат қорқынышы AI әзірлеушілеріне төменгі сынақ пен төменгі сапа құрылған мұсылман деректерін пайдалануды қолдады.
Microsoft және Openai қолдауымен, шектеусіз сыйлықтар Ол бүкіл әлемдегі кітапханалармен және мұражайлармен жұмыс істейді Өзінің тарихи топтамаларын жолдағы кез-келген адамға қалай дайын ету керектігі туралы олар олар қатысатын қауымдастықтар үшін де пайдалы.
«Біз қазіргі уақытта биліктің бір бөлігін осы ұйымдарға оралуға тырысамыз», — деді Arianta Skurtas, ол зерттеуді басқарды Гарвард заң факультетінің кітапханалық инновациялық зертханасы. «Кітапханашы әрқашан мәліметтер мен ақпарат әкімшісі».

Гарвард, кітаптар 1.0 ұйымдастырылған мәліметтер жаңа ғана жарияланды, Оның құрамында 394 миллионнан астам сканерленген қағаз бар. Ең көне туындылардың бірі — он бесінші ғасырдан бастап: корей суретшісі гүлдер мен ағаштарды отырғызу туралы жазған рефлексиялар. Жұмыстардың ең үлкен концентрациясы ХІХ ғасырдан бастап, әдебиет, философия, құқық, құқық және ауыл шаруашылығы сияқты мәселелер бойынша, барлығы мұқият сақталған және кітапханашылар ұрпақтарымен ұйымдастырылған.
Нақтылықты жақсарту
Әзірлеушілер үшін өте пайдалы, олар тырысады Жүйелеріңіздің дәлдігі мен сенімділігін арттыру.
«Бұдан шыққан кезде көптеген мәліметтер пайдаланылды», — деді Деректер бастамасының бас директоры, Грег Лепперт, ол сонымен қатар Интернет және Гарвард қауымдастығындағы технологияның көшбасшысы, ол кибер кеңістіктегі зерттеулерге бағытталған агенттік, атап өтті. Бұл кітаптар жиынтығы «Ұйымдар сканерлейтін, іс жүзінде осы құжаттарды жинағанға дейін», — деді ол.
Сөйлесулер алдында жасанды интеллект үшін ақылды сауданы бастамас бұрын, Көптеген IA зерттеушілері Википедиядан алынған мәтіндік билеттердің пайда болуы туралы көп ойламайды, REDDIT сияқты әлеуметтік медиа форумдар, кейде, кең Контрабандалық кітап салымдары. Оларға тек компьютерлік сарапшылар хабарлама коды деп аталады: Деректер бірлігі, әр құрылғы сөздің абзацын білдіре алады.

Гарвардтағы жаңа жаттығу жиынтығы Оның 242 миллиардтық хабарлама кодтары, адамдар үшін шатастыратын сома барБірақ бұл әлі де ең жетілдірілген AI жүйелеріне енгізілген бір тамшы ғана. Мысалы, Facebook-тің ата-аналық компаниясы META өзінің VAST AI моделінің соңғы нұсқасы мәтіннен, суреттерден және бейнелерден алынған 30 миллиардтан астам хабарландыру кодтарымен оқытылғанын айтты.
Мета сонымен қатар Comedian Sarah Silverman және басқа авторлардың жарияланған жұмыстары бар қажеттіліктерімен бетпе-бет келеді Олар компанияны өз кітаптарын қарақшылар шығармаларының елес кітапханаларынан ұрлады деп айыптады.
Енді бірнеше броньдаумен кітапханалар өз жағдайларын талап етеді.
Авторлық құқықты бұзу
Ашық, бұл Ол сонымен қатар авторлық құқықты бұзудың бірқатар талаптарына жауап береді, Ол биылғы жылы 50 миллион доллардан астам ғылыми ұйымдарға, соның ішінде ғылыми-зерттеу ұйымдарына, оның ішінде 400, Оксфорд университетінде, мұнда сирек кездесетін кітаптар мен транскрипцияны қолданады.
Компания бірінші болып, АҚШ-тағы ең ірі компаниялардың бірі Бостон қоғамдық кітапханасына хабарласқан кезде, Кітапхана барлық ақпараттың цифрландыратындығын нақты анықтайды, олар барлығына қол жетімді боладыДжессика Чапель, сандық және онлайн қызметтердің директоры бөлісті.
Бұл Openai бағдарламалық жасақтамасында көптеген оқу мәліметтері бар. Бізді сандық нысандардың көпшілігі қызықтырады. Сондықтан, бұл жағдайдағы жағдай сияқты Хобби сәйкес келеді«Жолдаған шіркеу.
Цифрландыру қымбат. Мысалы, Бостон кітапханасы үшін бұл өте мұқият жұмыс және жаңа Англиядағы ондаған газеттер, Француздар Француздар 19 ғасырдың аяғында және ХХ ғасырдың басында Quebec иммигранттарында кеңінен таралды. Енді бұл құжат AI оқыту үшін қолданылады, бұл кітапханашы жасағысы келетін демеушілік жобаларға көмектеседі.

Гарвардтың коллекциясы 2006 жылдан бастап цифрландыруды бастады Google-дің тағы бір техникасы үшін, оның даулы жобасымен 20 миллионнан астам кітаптан асып түсетін онлайн кітапхана құру үшін.
Google көптеген жылдар бойы авторлық кітапхананың қажеттіліктерінен өздігінен қорғадыОған жаңа және авторлық құқықпен қорғалған жұмыстар бар. Соңында, ол 2016 жылы, Жоғарғы Сот учаске бағынысты соттың істен шығуын мақұлдаған кезде шешілді, егер ведомстволық бағыныстағы соттың сәтсіздіктерін мақұлдаған кезде, авторлық құқықты бұзу талаптарын қабылдамады.
95 жыл
Енді, бірінші рет Google Гарвардпен бірге Google кітаптарынан бастап көпшіліктің доменінен шығу үшін жұмыс жасады Және оларды АИ әзірлеушілерімен бөлісу жолын құйыңыз. Америка Құрама Штаттарындағы авторлық құқықты қорғау шаралары әдетте 95 және одан да көп уақытқа созылады.
Жаңа бастаманы Google компаниясының кітап жобасы үшін және жақында басқарған компанияларға сотқа берген авторлардың тобы қарсы алды.
«Мэри Расенбергер» Жазушылар қауымдастығының бас директоры: «Бұл тақырыптардың көпшілігі тек негізгі кітапханалардың сөрелерінде де бар және осы мәліметтер жинағын құру және пайдалану осы эпизодтарға және олардың құрамында білім алуға мүмкіндік береді» деді. «Бәрінен бұрын, оқу үшін мәліметтердің үлкен жиынтығын құру жаңа AI модельдерін құруды демократиялайды».

Бұл AI құралдарының келесі буынына қалай болатынын көру әлі де пайдалыСебебі деректер Hafging Face платформасында ортақ пайдаланылады, онда деректер жиынтығы мен AI ашық бастапқы модельдер жүктелуі мүмкін.
Кітаптар жинағы AI-дің әдеттегі деректер көздерімен салыстырғанда әр түрлі. Ағылшын тілінің жартысынан аз, еуропалық тілдер басым болғанымен, әсіресе неміс, француз, итальян, испан және латын тілінде.
Өте маңызды
Он тоғызыншы идеологияның имбиялық кітаптар жинағы да «өте маңызды» болуы мүмкін Технологиялық индустрияның AI дилерлерін құру бойынша күш-жігері, сондай-ақ, адамдар, сондай-ақ, адамдар, Лепперт атап өтті.
Инстаграмдағы осы жазбаны қараңызХарвард кітапханасы бөліскен басылым (@harvardlibary)
«Университетте сізде оның теориясының мәні туралы көптеген педагогикалық құжаттар бар», — деді ол. «Сізде процестерді қалай жүзеге асыру және талдауды қалай орындау керектігі туралы көптеген ғылыми ақпарат бар».
Бір уақытта, Сондай-ақ, көптеген ескірген мәліметтер барНәсілшілдер мен отаршыл оқиғаларды беделге ие ғылыми және медициналық теориялардан.
Кристи Мукк, «Жауапты пайдаланушылар» Гарвардты жаңарту зертханасының үйлестірушісі, ол «жауапты пайдаланушылар», деп мәлімдеді Гарвард кітапхананы жаңарту зертханасының үйлестірушісі, ол «пайдаланушылар пайдаланады.
Associated Press ақпараты бар.