В.с.с.О.> Всё равно релевантно. Это относится не только к нейросетям, но и к алгоритмам машинного обучения вообще. Трюки вроде residual connection конечно помогают, но это не панацея.
Так трюков-то много.
В.с.с.О.> Есть модели на базе LLAMA и Bard, имеющие 7 и 540 млрд нейронов, при очень малой разнице в кач-ве генерируемого текста.
См. разницу между малолетним преступником и Колмогоровым. Да, нейроны действительно, нужно уметь применить. Ну и что?
У Колмогорова - нейронов столько, сколько есть, и больше уже не станет. Он за всю жизнь перелопатил в сотни-тысячи раз меньше информации, чем тот же ЧатГПТ при начальном обучении за несколько дней-недель. И модель можно брать, копировать, дообучать, "выобучать" (операция принципиально невозможная для человека - с "обратным обучением" и "вычетом" данных из сети) и т.п.
Чтобы случился Колмогоров (а он не просто так случился) нужна огромная система метаобучения - специальные мясные носители генома, которые сложным образом и долго выбирают друг друга, скрещиваются и дают разнообразное потомство, которое потом обучается сложнейшей и огромнейшей системой из таких же как Колмогоров предварительно подготовленных нейросетей, несущих каждый свою часть общих знаний, нужно упорство самого Колмогорова в чтении, слушании лекций и постобработке их.
Чтобы случилась сильно более эффективная железная нейросеть нужен просто адекватный процесс метаобучения, в котором масса нейросетей будут обучаться, оптимизировать своё обучение и целевую функцию, выбираться и скрещиваться "надсмотрщиком" (или даже тем же генетическим алгоритмом, в котором вектор будет задавать особенности архитектуры).
Пока это дорого (в смысле потребных вычислительных мощностей), но это просто. Да, дорого, но да - просто и доступно прямо сейчас. Вопрос стоимости вычмощности для таких дел сейчас как раз быстро решается. Мы же не будем спорить о том, что "последовательные" процессоры фон Неймана (даже в своём массивно-параллельном варианте а-ля видеокарточка) не идеальны для эмуляции нейросетей, даже если им в набор инструкций добавить какой-нить MMAC? Ну вот сейчас как раз разрабатывается и обкатывается новое, адекватное железо для таких применений - мемристорные матрицы какие-нить или даже просто "умная память" с железно зашитыми алгоритмами распространения сигнала, где кодом задаётся только топология сети и функции активации.
Ценность ЧатГПТ не абсолютна. Её ценность в том, что она сломала у очень многих чисто психологический барьер "это невозможно", "машина никогда не сможет это делать", "это задача такой сложности, к которой мы никогда даже не подступимся".
Примерно как открытие ДНК превратило "великую тайну жизни, к которой мы не подступимся и через тысячи лет"© очень-не-дурак Рассел в техническую задачу огромной сложности, но с понятными путями решения. В результате чего уже через годы начали расти "атомные сады", а через какие-то 60 лет добрались до CRISPR/CAS9 и Life 2.0.
Языковые модели показали простой путь к созданию сложных и годных (практически годных!) семантических сетей, которые могут самостоятельно выявлять понятия, оперировать ими, генерировать на их основе логичные (и вербализируемые!) крайне сложные модели поведения, опираясь на опыт человечества, и применять их к реальности.
То, что они это делают пока и местами тупо и убого - по сути, вообще неважно. Примерно как самолёту братьев Райт не нужно было летать далеко, ему достаточно было пролететь несколько сотен метров. Достаточно понимания, что летать можно и понимания, как именно можно летать. Дальше - начали разбираться и как-то разобрались.
В.с.с.О.> Именно, что примитивных... Реальные нейроны, например, имеют естественную возможность запоминать паттерны сигналов во времени. В реале для хорошей имитации одного нейрона уже нужна своя нейросеть.
Это ВООБЩЕ неважно.
Это детали технической реализации. Они были бы важны, если бы добавляли некую новую сущность, типа, как предположено у Пенроуза в "Новом разуме короля" - ну, допустим, какие-то несводимые к классическим вычислениям нелокальные квантовые эффекты. Остальное - ну.. такое. Мы же не копируем один в один архитектуру, мы лишь подсмотрели несколько идей, так зачем там копировать идеально элементную базу?
В.с.с.О.> Но это не главное. Главное, что если суть обучения заключается в угадывании следующего слова, то всё, чего можно добиться - это угадывания слова, потому что такова функция ошибки в языковых моделях.
Так это ж зависит от "учителя".
Функция ошибки и целевая функция может быть любой, на каком-то этапе это было угадыванием слова, на каком-то может быть правильным вычислением (что выявляется правильными применениями) концепции.
Это вовсе даже не сложно, это вообще чисто техническое изменение по ходу.
В.с.с.О.> Да, ты можешь дообучать уже предобученную нейросеть, но эту предобученную нейросеть должен сначала кто-то создать. А при создании нейросети, которое проходит до её обучения, веса нейронов инициализируются рандомно... Почитай документацию того жу Keras/Tensorflow.
А с чего ты взял, что я незнаком с Тензорфлоу?
и при чём тут Тензорфлоу вообще? Это конкретная библиотека и её конкретная реализация. При чём тут нейросети
вообще?
В.с.с.О.> Это суровая реальность. Да, для выхода из локальных минимумов можно применять разные ухищрения, и "чистый" градиентный спуск уже мало где применяется.
Ну так а я о чём?
Татарин>> Это... ну, страшная примитивизация. То есть, верное описание работы конкретного простого типа нейросетей, уровень примерно 15-20 летней давности.
В.с.с.О.> Это суровая реальность машинного обучения.
В.с.с.О.> Не только нейросети, а вообще все алгоритмы машинного обучения имеют такие фундаментальные недостатки.
Эээ... Ну нифига-се обобщения следуют из знакомства с Тензорфлоу.
Ну нет, конечно же.
Я даже не буду трогать варианты с нейросетями, возьму простой генетический алгоритм (который, кстати, очень часто и применяется для "взлома" "ловушки локальных оптимумов") - где там что-то похожее на градиентный спуск и его проблемы?
Татарин>> люди - тоже обычный набор органики, и никаких чудес. Но очень многие люди вполне разумны. Там тоже сплошная математика, но вполне себе работает.
В.с.с.О.> Работает, но ограниченно, и тут и там.
Ну, в этом-то и фишка, что даже люди уже работают
достаточно хорошо для человеческих целей. Нет никаких причин, по которым другие системы не будут работать так же или лучше ("Человек есть нечто, что должно превзойти"© Заратустра в воображении Ницше).
Тем более, что перед этими другими системами не ставится жесточайших ограничений, как перед человеческим мозгом - по компактности, энергоэффективности, общей производительности, саморемонту, возможности самопостроения через репликацию, удароустойчивости, терморегуляции, сверхкомпактности инструкций для построения себя и т.п. и т.д.
В.с.с.О.> Вот для такого эффекта ChatGPT пришлось дообучать на куче данных, размеченных людьми. Какая-нибудь GPT-3 при задании вопроса "в чём смысл шутки" может продолжить твой вопрос, не дав ответа, может добавить что-то типа "сказал Андрей своему приятелю", может сказать что-то неполиткорректное и т.д..
Это вытекает из изначальной грубости корпуса обучающих данных и недостатка там именно взаимодействия.
Если ты делаешь систему, работающую в интерактиве, должен же ты дать ей какой-то опыт интерактива?
Сейчас же доступ к ЧатГПТ дали всем желающим не просто так. Они собирают именно опыт интерактива. И соберут, будь уверен.
В.с.с.О.> Конечно нет. Как и нет оснований полагать, что мы найдём некий набор данных и некую функцию потерь, ведущие к какой-то "сути вселенной" или хотя бы не галлюцинирующему ИИ.
Все имеющиеся тексты, плюс доступ в реальный мир, плюс критерием - выполнение неких задач.
А как учатся дети? Всё то же самое. Ты же не считаешь человеческий мозг неработоспособным, верно?
Хотя, конечно, если ребёнка не обучать или обучать неадекватно, ты получишь животное, дебила, неадекватную шизоидную личность, а то и вовсе даже шизофреника с разными вариантами расстройств.
В деле обучения семантических сетей сейчас делаются первые шаги. Уже понятно, что построение и работа семантических сетей
возможны, но конкретные детали - что, где, как и кого учить, чтобы получить результаты всё более высокого качества, - ещё нужно наработать.
В.с.с.О.> Угу, только входные условия - это рандомный текст из интернета/размеченный вручную текст, а "паттерны для генерации" - это продолжения того же текста...
Ты мало играл с этой сеткой.
Она реально может шутить. Тупо шутить, но может. Не с пересказом чужих шуток и не постановкой шутки в новой контекст, а реально выдавать новый юмор в контексте.
Для меня наличие в этой сети паттерна шутки, как концепта, и возможность его использования говорит о много.