Дорогие друзья!
В эфире снова новости компьютерного зрения. Напомним, что в восьмой модели автоматического распознавания видов, которая была запущена 19 августа 2022 г., были использованы новые критерии отбора видов для обучающего датасета: теперь минимальный порог равен не ста наблюдениям, а ста фотографиям. Осенью 2022 г. был анонсирован новый алгоритм добавления видов в модель автоматического распознавания: примерно раз в месяц те виды, которые добрались до квалификационного порога, добавляются в модель без пересчёта включенных ранее видов. Это позволило заметно ускорить включение новых растений.
Новая модель (v2.4, т.е. четвёртая ежемесячная порция обновлений грандиозной второй модели) основана на данных, выгруженных из системы 21 мая 2023 г. - в ней появилось сразу 664 новых вида растений, в т.ч. 58 видов проекта "Флора России".
После этого дополнения модели, мы быстро сделали чистку "Копилки флоры России". Оказалось, что с 13 мая сразу 21 из 300 видов копилки стали известны системе, и она их предлагает пользователям при определении снимков:
Astragalus vulpinus Астрагал лисий
Artemisia lagocephala Полынь куроголовчатая
Viola xanthopetala Фиалка желтолепестковая
Oxytropis pallasii Остролодочник Палласа
Cardamine altaica Зубянка сибирская
Onobrychis pallasii Эспарцет Палласа
Acer barbinerve Клён бородатый
Achillea biserrata Тысячелистник дваждыпильчатый
Euphorbia caesia Молочай сизый
Crataegus maximowiczii боярышник Максимовича
Euphorbia altaica Молочай алтайский
Silene crispata Смолёвка курчавая
Lilium kesselringianum Лилия Кессельринга
Thalictrum filamentosum Василисник нитчатый
Fibigia eriocarpa Фибигия мохнатоплодная
Aruncus sylvester Волжанка лесная
Anabasis aphylla Анабазис безлистный
Viola sieheana Фиалка Зиге
Melica picta Перловник пёстрый
Syneilesis aconitifolia Синейлезис аконитолистный
Draba borealis Крупка северная
Некоторые виды (с большинством наблюдений из-за границы) прошли порог, так и не побывав в нашей копилке:
Silene aprica Смолёвка солнечная
Vicia costata Горошек ребристый
Juncus triglumis Ситник трёхчешуйный
Datisca cannabina Датиска коноплевая
Nonea caspica Нонея каспийская
Potentilla inclinata Лапчатка седоватая
Anemonoides caucasica Ветреничка кавказская
Thesium chinense Ленец китайский
Iris tenuifolia Ирис тонколистный
Gymnocarpium continentale Голокучник континентальный
Eleocharis uniglumis Болотница одночешуйная
Carex liparocarpos Осока блестящеплодная
Dictamnus angustifolius Ясенец узколистный
Arenaria leptoclados Песчанка тонковетвистая
Teesdalia coronopifolia Тисдайлия коронополистная
Epipactis leptochila Дремлик тонкогубый
Linum nodiflorum Лён узловатоцветковый
Populus simonii Тополь Симона
Luzula capitata Ожика головчатая
Isatis oblongata Вайда продолговатая
Trillium apetalon Триллиум безлепестный
Potentilla freyniana Лапчатка Фрейна
Saxifraga adscendens Камнеломка восходящая
Prunus salicina Слива китайская
Tulipa greigii Тюльпан Грейга
Scutellaria caucasica Шлемник кавказский
Mercurialis ovata Пролесник яйцевидный
Vicia parviflora Горошек тончайший
Potentilla discolor Лапчатка разноцветная
Итак, каждый месяц ещё несколько десятков видов флоры России становятся известными моделям компьютерного зрения iNaturalist. В большинстве регионов свыше 95% загружаемых фотографий (в Средней России 99%) относится к таким видам, которые известны системе, а, значит, чем лучше и правильнее пользователь фотографирует объект, тем больше шансов, что он сразу получит верный ответ. Тут скорее может подвести пространственная неполнота данных или сезонные дырки в наблюдениях. Не забывайте, что параметр "увиденные поблизости" учитывает как географическую близость (квадрат 3 на 3 градуса), так и сезонность (интервал 3 месяца - текущий и два соседних). Собственно, по этой причине модель вам не предложит новозеландских эндемиков в Подмосковье или подснежников осенью.
Так что если вам действительно важно быстро узнать, что это за растение, не дожидаясь отклика экспертов (что важно во время летнего пика наблюдений), неторопливо делайте аккуратные снимки с разных ракурсов и обязательно перечитайте пост "Как снимать, что снимать: учимся у классиков. Особенно это будет актуально летом, когда возможности экспертного сообщества на порядок ниже потока свежих летних фотографий.
После обновления копилки наш список включает уже 400 видов (правда, теперь гораздо более редких). После выхода обновлений мы будем регулярно менять виды, преодолевшие этот порог, на те, что находятся ниже по списку.
АЛГОРИТМ ВКЛЮЧЕНИЯ ВИДОВ В КОПИЛКУ
1) Ждём выхода новой модели и релиза в блоге iNaturalist по этому поводу.
2) Берем полный список видов проекта "Флора России".
3) Скриптом проверяем, какие виды не включены в текущую модель компьютерного зрения.
4) Убираем из "Копилки" виды, попавшие в текущую модель.
5) Берем топ-400 видов по числу наблюдений проекта "Флора России" (в этот раз порог 30 наблюдений).
6) Добавляем ВСЕ их наблюдения с фото из всех стран в копилку - для обучения используются в т.ч. наблюдения, сделанные в культуре.
7) Делаем новые наблюдения этих видов, загружаем их на сайт, проверяем определения.
8) См. пункт 1.
КАК МОЖНО ПОМОЧЬ?
КОПИЛКА СТАЛА БОЛЬШЕ. С этого релиза копилка стала на 100 видов больше (400 видов-кандидатов вместо 300). Это значит, что целенаправленные поиски этих видов в вашей местности станут более продуктивными и интересными. Некоторые виды копилки - самые обычные растения в местах работ некоторых активных наблюдателей.
НОВЫЕ ФОТО. Цель копилки - максимально ускорить процесс сбора фотографий по видам, которым чуть-чуть не хватает для включения в модель автоматического распознавания видов. Эти фото будут использованы в следующем обучающем наборе. Все мы замечаем, что каждый раз модель становится всё более компетентной и редко допускает грубые ошибки. Участники целенаправленно пополняют копилку, ориентируясь как на список видов (добавляя региональные фильтры), так и на карту, по которой мы можем глянуть на ближайшие точки видов-кандидатов и постараться сделать дополнительные наблюдения именно этих видов. Поверьте: такие поиски даже в соседнем лесу могут превратиться в увлекательное приключение! Но не забывайте, что из каждого наблюдения на обучение модели пойдёт только 5 фотографий (для соответствия критерию по разнообразию гаджетов).
Вот все формальные пороги для новых видов:
- ранг вида (гибриды, подвиды и разновидности не включаются)
- минимум 100 фото
- 50% фото имеют определение сообщества
- не более 5 фото из одного наблюдения
Иными словами, по текущим правилам, всего 20 исключительно полных наблюдений "исследовательского уровня" (минимум по 5 фото в каждом) достаточно для включения нового вида в модель.
Региональные примеры
НОВЫЕ ГАДЖЕТЫ. Для ряда видов имеется недостаточное разнообразие устройств: напрямую в релизах iNaturalist об этом не говорится, но Алекс Шепард в комментариях к постам рассказал, что наложены дополнительные ограничения на разнообразие источников, из которых поступают фотографии. При выгрузке обучающего набора фотографий из их метаданных берутся сведения, на какие устройства был снят тот или иной вид. К сожалению, точные значения пороговых отметок при этом не обнародованы. Если небольшое разнообразие устройств и наблюдателей не позволяет сделать обучающую выборку репрезентативной, то такой вид оставляется в сторонке для дальнейшего накопления данных. Такие ограничения вводятся потому, что, как показал эмпирический опыт, при обучении модель становится сильно зависимой от типа и марки устройств, на которые производилась съемка и, например, может узнавать какой-то вид, снятый на айфонах, но не видеть его на прочих фотографиях.
НОВЫЕ ОПРЕДЕЛЕНИЯ. Очень многое зависит от экспертов и их работы. Несмотря на преодоление пороговых отметок, многие виды пока не включены в модель. Почему? У части видов пока недостаточная доля наблюдений исследовательского уровня (особенно у видов с большим числом наблюдений из-за рубежа, а также в сложных группах типа Alchemilla, Thymus, Carex и т.п.). Так что без участия экспертов в определении фото видов-кандидатов совершенствование модели компьютерного зрения невозможно в принципе. Например, довольно много видов флоры Приморья не включены в модель из-за большого числа неподтверждённых наблюдений из Южной Кореи.
РЕЗУЛЬТАТ. Именно первое включение вида в модель основано на наиболее чистом датасете фотонаблюдений, поскольку эти изображения вручную определены экспертами и наблюдателями (без учета мнения модели). Затем неизбежно начинают накапливаться ошибки, основанные на использовании подсказок, и обучение следующей модели хотя бы частично становится основанным на автоматически определенных фотографиях. Впрочем, обучающий массив при этом неизбежно растёт.
Подписались здесь на персональные уведомления журнала "Флора России": @natalia_gamova, @marina_gorbunova, @andrey_sdobnikov, @alexfamilyteam, @serycherny, @oleg_kosterin, @oksana_serikova, @taimyr, @yurii_basov, @madmanserg, @urij777, @tsn, @pavelsus, @denis_ivanov, @daba, @yuriydanilevsky, @julia_shner, @irinabobyleva, @tatyana_ilina, @windof, @petr_kosachev, @tanniii66, @grigoriy_yashin, @svetlanakutueva, @naturalist19358, @prokhozhyj, @forestru, @marina_sad, @tls-60, @cat_arch_angel, @irina_lebedeva83, @hoktokon, @daria_dru, @millione, @nikita_gerasin, @yuliaspiridonova, @woodmen19, @konstantin_shiryaev, @sennator, @stepan_vdovichenko, @nikolaydorofeev, @anaumkin, @svetlana-bogdanovich, @aleks-khimin, @pavelkomkov, @katya, @nikolay_sobolev, @dinanesterkova, @magrat666, @svetlana_katana, @irinasavenko, @liyixuan, @eugenia_urusova, @chimik, @naturalist57011, @tatianavladimirova, @v199rus, @wildpendulum, @dakileno, @gushchina_angelina, @pyakai, @danilinav, @npz, @tivanik, @okasana, @cyathus, @cryptobasis, @vera_sokolova, @ev_sklyar, @alexandrtichonov, @caseymclowe, @mallaliev, @beerolha, @olga-2021, @olga_neogeo, @pamari, @alex_iosipenko, @alexander_ignatenko, @dni_catipo, @yaroslavmagazov, @naturalist34144, @zhu_lixun, @liyixuan, @iljar, @phlomis_2019, @savva_chigarkov, @sansan_94, @elena526, @ivan_savinov, @a-travva, @aleksandrebel, @eliooblomoff, @natalya_vilyaeva, @antropov_alexandr, @xueqiqi, @sokolkov2002, @pavel_golyakov, @aeroself, @alexanderdubynin, @pushai, @kristina_k, @tatiana_dolgova, @tr3gl_svg, @volnushka, @alexanderlakomov, @tatiana_moscow, @tomegatherion, @vladimirpenzyak, @vikaryabkova, @xueqiqi, @ksenia_urakova, @eremchi, @siburhan, @tatiana_gerasenko, @kazakovdenis, @zhang_luyu, @natalia_trifuz, @divitre, @dmitrii_mostovoi, @olga2019kuryakova, @evgeniyaast, @anastasiaredflower99, @anastasiya_spb, @svetlanakhanty, @ekaterinavoinova, @sergilus, @osting, @ninacourlee, @evgeny_ananyev, @irine_shlojmis, @wkent, @mariasakal, @elena_tikhonova, @evgeniq_benihanov, @ankhen, @radlena, @gerda_new, @komar281, @lilia_rakitianskaia, @igalka, @ganser8, @nikolai_nakonechnyi, @repta, @olya333555, @atachkin, @chortovatravka, @lebedeva_na, @sergey_shitov, @tatyanapopova, @oksana_serikova, @cvetlana, @romankonstantinov, @ilya_rudenko, @anisimov-43, @inessa_naturalist, @olga_arishina, @olga_petrova, @krestov, @zhukovskaya, @dormidontovvladimir, @vlshl, @naturalist34144, @danila_kurochkin, @natur58, @konstantin_m, @kot_s76, @eugenia_wiskasoid, @veksha, @fretkus, @m2011, @sasha_sashevich, @olga_chernyagina, @natalya_fomina (если вы заполняли форму, но вас тут нет, значит, вы написали свой ник с ошибкой - заполните форму ещё раз).