Цены снижены! Бесплатная доставка контурной маркировки по всей России

Объезд препятствия через двойную сплошную: Что грозит за объезд препятствия через сплошную или по обочине? | ГИБДД | Авто

Содержание

Объезд препятствия на дороге – штраф или лишение?

Если инспектор все же составил протокол, то в графе объяснения лица пишем:

«По встречной полосе (или обочине) я не двигался, а использовал часть дороги встречного движения для объезда препятствия, так как другого пути объехать не было. Инспектор проявил полное бездействие в организации объезда препятствия. Требую помощи адвоката. Инспектор отказался составить схему нарушения. Имею видеозапись с регистратора движения». (При наличии таковой.)

И в 10-дневный срок отправляйте заявление сразу в суд с требованием обжаловать вынесенное в ваш адрес постановление.

Наказание за объезд препятствия

Даже если у вас не было выбора, объезд препятствия с нарушением ПДД карается штрафом. Увы, таковы реалии нашего законодательства. В Правилах дорожного движения вообще никак не объяснено, что нужно делать, если на дороге перед вами лежит дерево, стоит аварийная машина или любое другое препятствие, которое можно объехать только по «встречке». Нет ни соответствующего пункта, ни даже термина «Объезд».

Действуя строго по букве закона, нужно остановиться и подождать, пока препятствие кто-то уберет.

И все-таки есть пункты, косвенно касающиеся нашего случая:

  • п.9.2 ПДД. «На дорогах с двусторонним движением, имеющих четыре или более полосы, запрещается выезжать для обгона или объезда на полосу, предназначенную для встречного движения…»;
  • п.15.3. Движение через ж/п: «Запрещается объезжать с выездом на полосу встречного движения стоящие перед переездом транспортные средства».

Таким образом, если автомобиль выполняет смену полосы движения в связи с тем, что полоса чем-то или кем-то заблокирована, то его маневр может рассматриваться как объезд. Во всех остальных случаях, т.е. если на полосе движения присутствует какая-то активность в виде движущегося транспортного средства, маневр можно расценивать как опережение или как обгон.


Как правильно объезжать препятствия на дороге?

С каждым годом, ПДД вырастают всё в большее «яблоко раздора» между водителями и сотрудниками дорожной полиции. Многие пункты правил дорожного движения носят двоякий смысл, а другие и вовсе «не налезают на голову». Именно таким является правило объезда препятствия на дороге, ведь данная тема собирает вокруг себя огромное количество спорных ситуаций.

Что такое объезд препятствия?

Прежде чем поговорит про объезд, необходимо определить, что такое препятствие на дороге и какое понятие даётся ему в ПДД. Итак, препятствие — это неподвижный объект, оказавшийся на полосе движения транспортных средств, который не даёт продвигаться далее по данной полосе. Под определение понятия «препятствие» не попадают заторы, а также другие транспортные средства, которое остановилось на полосе.

В то же время, «объездом» называют маневр, выполняемый водителем, с целью преодоления некоего препятствия, появившегося на пути движения транспортного средства.

Тем не менее, в ПДД вы не найдёте чёткой дефиниции данного понятия. Давайте разъясним путаницу, часто возникающую в головах автомобилистов относительно того, что обгон и объезд – это разные понятия в ПДД. Если, например, на дороге проводятся ремонтные работы и она отчасти заблокирована, то проезд препятствия с одной из сторон относится к объезду. Но если впереди вас медленно едет большая фура, например, и вы её объезжаете, то это уже считается обгоном. Нельзя путать эти два понятия!

Важно! Неправильно совершённый обгон повлечёт за собой больший штраф, чем неправильный объезд.

Как объезжать препятствия под предписывающие знаки?

Пожалуй, утопия для водителей – это дорога, лишённая перекрёстков, пешеходных переходов, сужений и других препятствий для нормального и расслабленного движения в заданном направлении. Но в реальности, часто всё идёт не так, как хотелось бы. Ко всему прочему, на проезжей части могут образовываться и различные препятствия, а для регулировки движения на таких участках устанавливаются следующие предписывающие знаки.

Интересно! Двигаясь в условиях тумана, все встречаемые на пути объекты, кажутся водителю большими, чем они есть на самом деле.

«Объезд препятствия справа»

Дорожный знак 4.2.1 «Объезд препятствия справа» устанавливается с целью чёткого указания траектории, по которой следует объезжать объект, мешающий дальнейшему нормальному движению автомобиле. В данном случае, разрешается это делать только по правой стороне от него. Объезд слева недопустим. Знак действует только в зоне расположения упомянутого объекта, а после объезда препятствия, действия этого дорожного знака прекращается.

«Объезд препятствия слева»

Знак 4.2.2 требует объезжать препятствие только с левой стороны, несмотря на то, что его можно объехать и справа. По правилам дорожного движения, водитель обязан объезжать преграду только слева. Часто, этот знак можно встретить на автомобилях коммунальных служб, дорожно-ремонтных организаций и других предприятий, проводящих дорожные ремонтные работы.

Случается и так, что знак 4.2.2 может противоречить требованиям сплошной горизонтальной линии разметки. В этой ситуации, водители должны помнить о приоритете и ориентироваться, в первую очередь. на то, куда указывает знак. Поэтому можно вполне законно пересекать разметку, чтобы объехать препятствие. Далее можно возвращаться на свою полосу.

Важно! Знак, как он есть, не даёт приоритета автомобилю, выполняющему объезд препятствия, поскольку преимущество имеет встречный транспорт.

«Объезд препятствия справа или слева»

«Объезд препятствия справа или слева» (знак 4.2.3) является наиболее популярным регулировочным средством на время проведения ремонтных работ посреди проезжей части и при необходимости объезда разного рода ограждений и конструкций.

Если выбирать траекторию движения логично, то водителю необходимо больше придерживаться правой стороны, чтобы не выезжать на встречную полосу. Если же выполнять манёвр влево, тогда нужно двигаться от неё на максимально возможном расстоянии.

Это основы безопасности движения по полосам проезжей части. Однако водитель сам решает с какой стороны ему проще преодолеть преграду, но, в любом случае, безопасность должна быть превыше всего.

Знаете ли Вы? У индийских коров, имеющих статус священного животного, есть преимущество перед любым транспортным средством, зафиксированом в ПДД.

Правила объезда

Различные ситуации, связанные с объездом препятствий, являются очень проблемной правовой коллизией не только в Украине, но и в административных законодательствах других стран. Сотни водителей, только в столице, ежедневно встречают перед собой преграды в виде сломанного грузового автомобиля, машины с включенными аварийными огнями, глубокой ямы на дороге и других преград, которыебез выезда на полосу встречного движения, физически не получается объехать.

Можно ли выезжать пересекать прерывистую для объезда?

«Прерывистая линия» разметки 1.5 – это наиболее любимая водителями часть дороги. Одинарной пунктирной линией разделяются участки движения на многополосных дорогах. Эту разметку можно пересекать с разных сторон, но только если такие маневры не противоречат действующим правилам дорожного движения.

Например, нельзя объезжать выбоины, выезжая на другую полосу с активным движением. Можно снизить скорость и постараться аккуратно их проехать.

Разрешено ли пересекать сплошную?

Без обоснованных причин, «сплошную» линию 1.1 пересекать запрещено. Исключение составляют места стоянки, парковочные площадки и край проезжей части, граничащий с обочиной. В таких случаях её можно пересекать.

Также, исключением являются неподвижные препятствия, которые своими габаритами вынуждают водителей пересекать «сплошную», объезжая их. Кроме того, разрешается совершать обгон одиночного транспортного средства с выездом на встречную полосу, если оно движется со скоростью меньшей 30 км/ч.

Спорной ситуацией является объезд автобуса по встречной полосе. По определению он не является препятствием, так что пересечение «сплошной» для его объезда на остановке, грозит штрафными санкциями. Хотя есть, конечно, один момент, когда вы можете смело оспорить свой штраф. Если между остановившимся автобусом и линией разметки 1.1 недостаточно места для проезда автомобиля, тогда его можно расценивать, как препятствие и выезжать на полосу встречного движения для объезда.

Пересечение двойной сплошной

Излюбленное правонарушение работников дорожной полиции – пересечение «двойной сплошной». Если водитель не осведомлён в юридическом плане, тогда его легко могут лишить прав, составив соответствующий протокол. Ни для кого не секрет, что это делается только ради собственной выгоды. Но здесь можно обойтись и штрафом, а порой и вообще ничего не нарушить.

Например, на полосе вашего движения произошло ДТП. Можно ли совершить объезд аварии через двойную сплошную? Если нет физической возможности объехать препятствие справа (а автомобиль, попавший в ДТП, является препятствием), тогда при пересечении двойной сплошной, вас не имеют права привлекать к ответственности, особенно, если на месте аварии выставлен временный дорожный знак «Предварительный указатель перестроения на другую проезжую часть».

Интересный факт! Долговечность дорожной разметки проверяется количеством наездов шин, которое она выдерживает до полного истирания. Наиболее долговечная разметка наносится специальными полиуретановыми лентами. Она может выдержать до восьми миллионов наездов, в то время как обычная краска, только пятьсот тысяч.

Подписывайтесь на наши ленты в таких социальных сетях как, Facebook, Вконтакте, Instagram, Pinterest, Yandex Zen, Twitter и Telegram: все самые интересные автомобильные события собранные в одном месте.

Можно ли объехать затор или ДТП на дороге, объяснили в МВД РК: 09 февраля 2018, 16:36

Как водителям объехать затор и не лишиться прав в Казахстане, объяснили в Комитете административной полиции МВД РК, передает Tengrinews.kz.

«Наверняка каждый водитель знаком с такой ситуацией: впереди затор, ДТП, аварийные машины перекрывают проезжую часть. Как их объехать? Слева или справа? Если вообще нет возможности их объехать, можно ли при этом пересечь разметку? Надо ждать. Обычно в таких ситуациях сотрудники полиции приезжают незамедлительно, организовывают регулирование и разрешение указанных дорожных ситуаций», — написала на своей странице в Facebook пресс-секретарь ведомства Ирина Лукьянина.

Она напомнила, что, согласно правилам дорожного движения, затор или транспортное средство, остановившееся на этой полосе движения в соответствии с требованиями ПДД, не является препятствием.

«Препятствие для движения согласно ПДД — это неподвижный объект на полосе движения, не позволяющий продолжить движение по этой полосе», — пояснила Лукьянина, подчеркнув, что правила допускают, что сплошную (одинарную) линию разметки как исключение допускается пересечь при объезде препятствия, если выполнить его невозможно, не прибегая к этому исключению.

«Но так как затор и ДТП не являются препятствиями, при их объезде нельзя пересекать сплошную (одинарную) линию разметки. Нелишне напомнить, что двойную сплошную линию разметки пересекать нельзя, здесь исключений нет», — добавила она.

Лукьянина пояснила, что двойная сплошная линия разделяет транспортные потоки противоположных направлений на дорогах, имеющих четыре полосы движения и более, и на таких дорогах, согласно пункту 9.2 ПДД, выезжать на полосу, предназначенную для встречного движения запрещено.

«Таким образом, объезжать затор или ДТП, нарушая требования разметки, да и другие требования ПДД, нельзя. И если в первом случае, когда водитель пересекает одинарную сплошную линию, ему грозит предупреждение или штраф в 3 МРП, то если вы совершите маневры через двойную сплошную, в том числе поворот или разворот через нее, это будет квалифицироваться как выезд на встречную полосу, и водителя могут лишить права управления ТС на шесть месяцев», — пояснила она.

(PDF) Целенаправленное избегание препятствий с глубоким обучением с подкреплением в пространстве непрерывного действия

Электроника 2020,9, 411 15 из 16

17.

Ko, D.W.; Ким, Ю. Н.; Ли, Дж. Х.; Су, И.Х. Надежная система внутренней навигации на основе сцены. В материалах

Международной конференции IEEE/RSJ по интеллектуальным роботам и системам (IROS) 2016 г., Тэджон, Южная Корея,

, 9–14 октября 2016 г.; стр. 1530–1537.

18.

Лин, Дж.; Ван, В.Дж.; Хуанг, Южная Каролина; Чен, Х.К. Семантическая сегментация на основе обучения для навигации роботов в

наружной среде. В материалах Совместного 17-го Всемирного конгресса Международной ассоциации нечетких систем

2017 г. и 9-й Международной конференции по программным вычислениям и интеллектуальным системам (IFSA-SCIS), Оцу,

Япония, 27–30 июня 2017 г.; стр. 1–5.

19.

Чжан Ю.; Чен, Х .; Привет.; Е, М.; Кай, X .; Чжан, Д. Сегментация дорог для круглосуточной навигации робота на открытом воздухе

.Нейрокомпьютинг 2018, 314, 316–325.

20.

Ниидзима, С.; Сасаки, Ю.; Мидзогути, Х. Автономная навигация электрической инвалидной коляски в режиме реального времени в крупномасштабном городском районе

с трехмерной картой. Передовая робототехника 2019, 33, 1006–1018.

21.

Фам, Х.; Смолька, С.А.; Столлер, С.Д.; Фан, Д.; Ян, Дж. Обзор систем предотвращения столкновений беспилотных летательных аппаратов

. arXiv2015, arXiv:1508.07723.

22.

Хой, М.; Матвеев, А.С.; Савкин, А.V. Алгоритмы бесколлизионной навигации мобильных роботов в сложных

загроможденных средах: обзор. Роботика 2015, 33, 463–497.

23.

Гарсия-Крус, Х.; Сергиенко О.Ю.; Тырса, В.; Ривас-Лопес, М.; Эрнандес-Бальбуэна, Д.; Родригес-Киньонес,

Дж.; Басака-Пресиадо, Л.; Меркорелли, П. Оптимизация скорости трехмерного лазерного сканирования с использованием комбинированной переменной

шага. Опц. Лазеры инж. 2014, 54, 141–151.

24.

Иванов М.; Сергиенко, О.; Тырса, В.; Меркорелли, П.; Карташов, В.; Эрнандес, В .; Шейко, С .; Колендовская,

М. Объединение отдельных сканов в виртуальную базу знаний для навигации мобильной робототехнической группы с 3D

ТВС. В материалах ежегодной конференции IECON 2018–44th of the IEEE Industrial Electronics Society,

Вашингтон, округ Колумбия, США, 21–23 октября 2018 г.; стр. 3187–3192.

25.

Мних В.; Кавукчуоглу, К.; Сильвер, Д.; Русу, А.А.; Венесс, Дж.; Беллемаре, М.Г.; Грейвс, А.; Ридмиллер, М.;

Фиджеланд, А.К.; Островский, Г.; другие. Контроль на уровне человека посредством глубокого обучения с подкреплением. Природа

2015,518, 529.

26.

Данн М.; Замбетта, Ф.; Тангараджа, Дж. Объединение навыков и моделирования для решения сложных навигационных задач

в Infinite Mario. Транзакции IEEE в играх 2018, 10, 101–106.

27.

Тампуу, А.; Матисен, Т .; Коделя, Д.; Кузовкин И.; Корьюс, К.; Ару, Дж.; Ару, Дж.; Висенте, Р.Мультиагент

сотрудничество и конкуренция с глубоким обучением с подкреплением. PloS one 2017,12, e0172395.

28.

Дин, X.; Чжан, Ю .; Лю, Т .; Дуан, Дж. Глубокое обучение для прогнозирования акций на основе событий. Двадцать четвертая

Международная объединенная конференция по искусственному интеллекту, Буэнос-Айрес, Аргентина, 25–31 июля 2015 г.

29.

Akita, R.; Йошихара, А .; Мацубара, Т .; Уэхара, К. Глубокое обучение для прогнозирования запасов с использованием числовой и текстовой информации.В материалах 15-й Международной конференции IEEE/ACIS 2016 г. по компьютерам и

информационным наукам (ICIS), Окаяма, Япония, 26–29 июня 2016 г.; стр. 1–6.

30.

Чонг, Э.; Хан, К.; Парк, ФК Сети глубокого обучения для анализа и прогнозирования фондового рынка: методология, представление данных

и тематические исследования. Экспертные системы с приложениями 2017, 83, 187–205.

31.

Зундерхауф, Н.; Брок, О .; Шайрер, В.; Хадселл, Р.; Фокс, Д.; Лейтнер, Дж.; Апкрофт, Б.; Аббель, П.; Бургард,

Вт.; Милфорд, М.; другие. Ограничения и возможности глубокого обучения для робототехники. Международный журнал

Robotics Research 2018, 37, 405–420.

32.

Тай, Л.; Ли, С .; Лю М. Глубокое сетевое решение для безмодельного обхода препятствий. В материалах Международной конференции IEEE/RSJ по интеллектуальным роботам и системам (IROS)

2016 г., Тэджон, Южная Корея,

, 9–14 октября 2016 г.; стр.2759–2764.

33.

Тай, Л.; Паоло, Г.; Лю, М. Глубокое обучение с подкреплением от виртуального к реальному: непрерывный контроль мобильных роботов

для безкартовой навигации. В материалах Международной конференции IEEE/RSJ 2017 г. по интеллектуальным роботам

и системам (IROS), Ванкувер, Британская Колумбия, Канада, 24–28 сентября 2017 г.; стр. 31–36.

34.

Чжу Ю.; Моттаги, Р .; Колве, Э.; Лим, Дж. Дж.; Гупта, А .; Фей-Фей, Л.; Фархади, А. Целенаправленная визуальная навигация в

внутренних сценах с использованием глубокого обучения с подкреплением.В материалах международной конференции IEEE

по робототехнике и автоматизации (ICRA) 2017 г., Сингапур, Сингапур, 29 мая – 3 июня 2017 г.; стр. 3357–3364.

35.

Рихтер, К.; Рой, Н. Безопасная визуальная навигация с помощью глубокого обучения и обнаружения новинок. Robotics: Science and

Systems XIII, Кембридж, Массачусетс, США, 12–16 июля 2017 г.

36.

Zhang, J.; Спрингенберг, Дж. Т.; Бедекер, Дж.; Бургард, В. Глубокое обучение с подкреплением с последующими функциями

для навигации в похожих средах.В материалах Международной конференции IEEE/RSJ

по интеллектуальным роботам и системам (IROS) 2017 г., Ванкувер, Британская Колумбия, Канада, 24–28 сентября 2017 г.; стр. 2371–2378.

(PDF) Непрерывное планирование кривизны с возможностью обхода препятствий в городских сценариях

Рис. 10. Реальный профиль кривизны на криволинейном участке на рис. 8

Рис. 11. Предложение по профилю скорости обрабатываются. Путем поиска положения точек B´

ezier control

можно спланировать плавный путь, который соответствует транспортному средству и дорожным ограничениям

(как объяснено в II.А).

Для создания этих кривых требовалось пространство между

(20 м) в предыдущих работах. Это решается путем учета производной параметрической кривой в ее пределах,

, где положение контрольных точек может быть найдено в

, чтобы иметь непрерывность С1 между соседними пересечениями

(как пояснено в II. Б).

Кроме того, модуль предотвращения препятствий включен в

этап локального планирования архитектуры.Этот этап

способен избегать статических препятствий на дороге, определяя

маневр обгона с тремя определенными фазами.

Считается, что профиль кривизны уменьшает боковые

ускорения. Пользователь может установить уровень комфорта в навигационной системе

, так как этот модуль рассчитывает продольный профиль скорости

в соответствии с требованиями пользователя.

Эти алгоритмы были проверены в моделировании (с

ProSivic) и на реальных платформах (Cybus), показывая хорошие

результаты на обеих платформах и подтверждая свою модульность

и универсальность.

В будущих работах будут улучшены возможности автомобиля по предотвращению препятствий

. Динамические препятствия

и различные средства связи с транспортными средствами (V2V и V2I) будут

учитываться для обеспечения более безопасной и комфортной

навигации.

БЛАГОДАРНОСТЬ

Авторы хотят поблагодарить проект ARTEMIS DE-

SERVE и FP7 CityMobil2 за поддержку в разработке этой работы.

ССЫЛКИ

[1] Дж.H. Frank MF Verberne и CJH Midden, «Доверие к умным

системам, разделяющим цели вождения и предоставляющим информацию для повышения надежности и приемлемости

интеллектуальных систем в автомобилях», Human

Factors: The Journal of the Human Factors and Ergonomics Society ,

2012.

[2] М. Ван Шейндель-де Ноой, Б. Кросс, Т. Ван ден Брук, С. Маас,

Э. Ван Нунен, Х. Звейненберг, А. Шибен, Х. Мозебах , Н. Форд,

М. Макдональд и Дж.Санчес, «Определение необходимого транспортного средства и

инфраструктурных систем для автоматизированного вождения», SMART 2010/0064

Европейская комиссия, 2011 г.

[3] Р. Чжэн, К. Накано, С. Ямабе, М. Аки, Х. Накамура и Ю. Суда,

«Исследование аварийного торможения для автоматического группирования

грузовиков», Intelligent Transportation Systems, IEEE Transactions on,

vol. ПП, нет. 99, стр. 1–10, 2014.

[4] Ф. Гиларделли, Г. Лини и А.Пиацци, «Генерация пути с использованием mbi4

-шлицев для грузовика и прицепа», Automation Science and

Engineering, IEEE Transactions on, vol. 11, нет. 1, стр. 187–203, январь

2014.

[5] С. Ингольфо и В. Сильва Соуза, «Закон и адаптивность в требованиях

проектирования», в разработке программного обеспечения для адаптивных и самоуправляемых систем

(SEAMS), Семинар ICSE 2013 г., май 2013 г., стр. 163–168.

[6] А. Броджи, П. Черри, С. Дебаттисти, М.Лаги, П. Медичи, М. Панчироли,

, и А. Приолетти, «Городские беспилотные испытания Proudpublic: архитектура

и результаты», симпозиум по интеллектуальным автомобилям (IV), IEEE 2014 г., июнь

2014 г., стр. 931. –937.

[7] К. Джо и М. Санву, «Создание точной карты дорог для

автономных автомобилей», Интеллектуальные транспортные системы, IEEE Transactions,

, том. 15, нет. 3, стр. 925–937, июнь 2014 г.

[8] Дж. Нильссон, М. Али, П. Фальконе и Дж.Шоберг, «Прогнозирующее маневрирование —

vre для автоматизированного вождения», в Intelligent Transportation

Systems — (ITSC), 16-я международная конференция IEEE, 2013 г., октябрь

2013 г., стр. 418–423.

[9] Л. Хан, Х. Яширо, Х. Неджад, К. Х. До и С. Мита, «Планирование пути на основе кривой Бзиера

для автономных транспортных средств в городской среде»,

на симпозиуме по интеллектуальным транспортным средствам (IV) , 2010 IEEE, июнь 2010 г., стр.

1036–1042.

[10] С.Зинун, П. Боннифаит и Дж. Ибанез-Гузман, «Последовательный тест для

автономной локализации ошибок карты для систем помощи при вождении»,

в Intelligent Transportation Systems (ITSC), 2012 15-я международная

конференция IEEE, посвященная, Сентябрь 2012 г., стр. 1377–1382.

[11] Д. Мадас, М. Носратиния, М. Кешаварц, П. Сундстром, Р. Филипсен,

А. Эйдехолл и К.-М. Дален, «О методах планирования пути для предотвращения автомобильных столкновений

», на Симпозиуме по интеллектуальным автомобилям

(IV), IEEE 2013 г., июнь 2013 г., стр.931–937.

[12] Д. Гонсалес и Дж. Перес, «Архитектура управления кибернетическими транспортными системами в городских условиях», in Intelligent Vehicles

Symposium (IV), IEEE 2013 г., июнь 2013 г., стр. 1119–1124. .

[13] Дж. Перес, Р. Латтаруло и Ф. Нашашиби, «Генерация динамической траектории с использованием алгоритмов непрерывной кривизны для помощи от двери до двери

транспортных средств», в Симпозиуме интеллектуальных транспортных средств (IV), 2014 г. IEEE, 2014.

[14] К.Ян и С. Суккари, «Анализ пути с непрерывной кривизной — алгоритм сглаживания

», Robotics, IEEE Transactions on, vol. 26, нет. 3,

, стр. 561–568, 2010.

[15] Д. Уолтон, Д. Мик и Дж. Али, «Плоские кривые перехода G2, составленные из

кубических b´

сегментов спирали Эзье», Журнал Вычислительная и

Прикладная математика, том. 157, нет. 2, стр. 453–476, 2003.

[16] Дж. Наранхо, К. Гонсалес, Р. Гарсия и Т. де Педро, «Нечеткое управление сменой полосы

в автономных транспортных средствах для маневра обгона».

Интеллектуальные транспортные системы, IEEE Transactions on, vol.9, нет. 3,

, стр. 438–450, сентябрь 2008 г.

[17] Л. Лабахуа, У. Нунес, Р. Родригес и Ф. Лейте, «Планирование плавной траектории

для полностью автоматизированных пассажирских транспортных средств: сплайн и клотоида Методы на основе

и их моделирование», в Informatics in Control Automation-

and Robotics. Springer Berlin Heidelberg, 2008, vol. 15, стр.

169–182.

1435

Прикладные науки | Бесплатный полнотекстовый | Дрон для обхода препятствий с помощью глубокого обучения с подкреплением и его гонки с пилотом-человеком

В дискретном пространстве действий агент выбирает действовать в соответствии с политикой π, которая обычно имеет форму жадного обучения.Здесь π равно функции значения состояния V , поскольку можно увидеть, что π учится, жадно выбирая наилучшее действие в заданном состоянии. Одной из популярных форм оценки стоимости является функция Q. Связь между Q и V может быть выражена как

Qπ(s,a)=E[R|st=s,at=a,π]Vπ(s)=Ea∼π(s)[Qπ(s,a)],

(3)

где a — выбранное действие при заданном состоянии s. Затем, определив оптимальную функцию Q как

Q*(st,at)=maxπQπ(st,at),

(4)

a=argmaxat+1∈AQ*(st+1,at+1),

(5)

а также

V*(ст)=maxaQ*(ст,ат),

(6)

Оптимальная функция Q удовлетворяет уравнению Беллмана:

Q∗(st,at)=Est+1[r+γmaxat+1Q∗(st+1,at+1)[st,at].

(7)

Для данных высокой размерности, т. е. изображения, Deep Q Network (DQN) может эффективно обучаться решению поставленной задачи [6]. Функция потерь для оптимизации DQN:

Убыток=||ytDQN-Q(st,at;θ)||,

(8)

YtDQN≡rt+1+γmaxQ(St+1,at+1,θ),

(9)

где θ — параметры сети для текущего шага оптимизации. Однако было показано, что использование онлайн-параметра θ для обучения может привести к нестабильному обучению в ванильном DQN.Для решения этой проблемы был предложен Double DQN [6]. В Double DQN целевая сеть копируется для каждого предопределенного временного шага и используется для оценки целевого значения на шаге оптимизации. Следовательно, целевое значение Y на временном шаге t в Double DQN выглядит следующим образом:

YtDoubleDQN≡rt+1+γmaxQ(St+1,at+1,θ-),

(10)

где θ- обозначает фиксированные параметры целевой сети, Чтобы удалить корреляцию каждого опыта, накопленного в буфере, что приводит к значительному ухудшению стабильности сети, DQN использует технику, называемую воспроизведением опыта.Уравнения (11) и (12) показывают, как накапливается опыт в буфере, где st — состояние, at — действие, rt — вознаграждение. При воспроизведении опыта сеть использует случайно выбранные мини-пакеты опыта из D вместо использования данных, которые накапливаются последовательно. Предлагается усовершенствование DQN, названное Double DQN [8]. Чтобы избежать проблемы чрезмерно оптимистичной оценки значения Q, Double DQN использует разные значения для выбора и оценки действия, в то время как DQN использует одни и те же значения для выбора и оценки значений:

YtDouble=r+γQ(st+1,argmaxQ(st+1,at+1,;θ);θ-).

(13)

Вместо того, чтобы использовать разные значения для выбора и оценки действия, дуэльная глубокая Q-сеть (Dueling DQN) [41] разделяет сети на сеть ценности и сеть преимуществ. Сеть ценности используется для оценки качества состояния, в то время как сеть преимуществ используется для оценки качества каждого действия.

Q(st,at;θ,α,β)=V(st;θ,β)+A(st,at,θ,α)-1A∑at+1A(st,at+1;θ,α).

(14)

Учитывая, что в предыдущих разделах есть два способа улучшить производительность DQN, в этой статье мы предлагаем агенту лучший способ обучения, комбинируя Double DQN с Dueling DQN, который называется Double Dueling DQN (DD-DQN). .В нашем эксперименте мы используем уравнение (14) для расчета значения Q, поскольку известно, что оно надежно устраняет корреляцию. Комбинируя уравнение (14) с двойным DQN, мы определяем целевое значение DD-DQN как:

YtDoubleDuelQ=rt+1+γQ(st+1,argmaxQ(st+1,at,;θ,α,β);θ-,α-,β-),

(15)

где θ — параметр сверточных слоев, а α и β — параметры сети преимущества и сети ценности соответственно. Следуя уравнению (15), функция потерь для оптимизации определяется как

Loss=||YtDoubleDuelQ-Q(st,at;θ,α,β)||.

(16)

Целенаправленное избегание препятствий с глубоким обучением с подкреплением в пространстве непрерывного действия оценивает вероятность столкновения вместе со статистической оценкой неопределенности, и показано, что алгоритм естественным образом предпочитает действовать осторожно в незнакомых условиях и увеличивает скорость робота в условиях, когда он имеет высокую достоверность.Expand

Трехмерное моделирование управления роботом-манипулятором с помощью глубокого Q-обучения

В этой работе представлен подход, в котором трехмерное моделирование используется для обучения роботизированного манипулятора с 7 степенями свободы выполнению задачи управления без каких-либо предварительных знаний, а также представлены предварительные результаты прямого переноса политик через в настоящего робота без дополнительного обучения. Expand

Непрерывный контроль с глубоким обучением с подкреплением

В этой работе представлен не модельный алгоритм, основанный на критике актеров, основанный на градиенте детерминированной политики, который может работать в непрерывных пространствах действий, и демонстрируется, что для многих задач алгоритм может изучать политики в конце. до конца: непосредственно из необработанных входных пикселей.Expand

Робот Sim-to-Real обучается на пикселях с помощью прогрессивных сетей

В этой работе предлагается использовать прогрессивные сети для преодоления разрыва с реальностью и переноса изученных политик из моделирования в реальный мир, а также представлена ​​ранняя демонстрация этого подхода с рядом экспериментов. в области манипулирования роботами, которые сосредоточены на преодолении разрыва в реальности. Expand

Планирование пути для автономных транспортных средств в неизвестной полуструктурированной среде

Практический алгоритм планирования пути для автономного транспортного средства, работающего в неизвестной полуструктурированной (или неструктурированной) среде, где препятствия обнаруживаются в режиме онлайн датчиками робота, приводит к более быстрому поиску и окончательным траекториям, лучше подходящим для структуры окружающей среды.Expand

Поле D*: планировщик пути на основе интерполяции и перепланировщик

Этот подход использует линейную интерполяцию во время планирования для расчета точных оценок стоимости пути для произвольных позиций в каждой ячейке сетки и для создания путей с диапазоном непрерывных заголовков, что особенно хорошо подходит для планирования недорогих траекторий для мобильных роботов. Expand

О двойном влиянии препятствий на предотвращение засорения силоса в 2D

Основная цель данной работы — исследовать, как наличие препятствия над выходом из силоса влияет на возникновение засорения при постепенном уменьшении кинематических эффектов ( вплоть до квазистатического предела).С этой целью мы провели эксперименты в двумерном бункере с препятствием над отверстием и конвейерной лентой под бункером, как показано на рис. 1а. Протокол автоматизированных измерений, наглядно объясненный в дополнительном фильме 1, позволяет вычислить вероятность засорения 90 427 p 90 428 90 429 c 90 430 на основе распределения лавин в каждой экспериментальной конфигурации. Дополнительная кинематическая информация извлекается из видеозаписей (см. раздел «Методы»), один кадр из которых показан в качестве примера на рис.1б.

Рис. 1: Схема экспериментальной установки.

a Фотография нижней части силоса, где можно различить препятствие, отверстие и конвейерную ленту. b Кадр с пленки, снятой высокоскоростной камерой, где определяется размер отверстия. Синий прямоугольник — это область, расположенная на выходе, где скорость частиц усредняется для вычисления v . Красный прямоугольник представляет репрезентативную площадь над отверстием и под препятствием, где величины усредняются для получения v x , v z и твердой фракции ϕ .Система координат (где для удобства положительные значения считаются в направлении вниз) также показана на этом рисунке. c Экспериментальные данные средней скорости частиц при выходе из бункера v , в зависимости от скорости ленты v b , в бункере с препятствием, для двух размеров отверстий, указанных в легенде. Неопределенности меньше, чем размер точки, поскольку скорости получены из средних значений по большому количеству данных.

Хотя изменения кинематики достигаются за счет настройки скорости извлекающей ленты ( v b ), параметр, который мы будем использовать здесь для характеристики динамики системы, равен v , средняя скорость частиц на самой розетке (точнее, в синей рамке, изображенной на рис.1б). Эта стратегия доказала свою полезность в предыдущих работах 28 , что позволило успешно объединить результаты, полученные для различных зазоров между лентой и дном силоса (другой параметр, влияющий на скорости частиц помимо скорости ленты 29 ). Действительно, в соответствии с выводами, полученными в этих работах для стандартных силосов, когда препятствие расположено над отверстием, мы обнаруживаем нелинейную зависимость между средней скоростью частиц на выходе и скоростью ленты (рис.1с). Обратите внимание, что зерна, движущиеся вниз, имеют положительные скорости, как показано на рис. 1b. Для низких v b зависимость довольно линейная, так как пояс в основном определяет динамику добычи; но затем, по мере увеличения v b , отверстие начинает экранировать проход зерен, и их скорость достигает насыщения в так называемом «режиме свободного выброса» из-за его сходства со сценарием, в котором выброс только с приводом от силы тяжести (без ремня).Как и ожидалось, значение насыщения ниже для меньшего размера выпускного отверстия ( D ), так как в свободно разгружаемом силосе скорости зерна на выходе масштабируются с D 1/2 30 .

Засорение

Зная среднюю скорость частиц при пересечении выходного отверстия для каждого экспериментального условия, мы вычисляем соответствующую вероятность засорения p c . Эта величина, учитывающая вероятность того, что частица засорит систему при выходе из бункера, может быть легко рассчитана по экспоненциальному распределению размеров лавины (измеряется как число частиц, s , вытекающих из бункера до арка образует засор) 25,26,27,28 (см. раздел «Методы»).{2}}$$

(1)

, где d p — диаметр частиц, v — скорость зерен, а b и a — два подгоночных параметра, которые учитывают, соответственно, влияние динамики системы и геометрические свойства арок.

Рис. 2: Вероятность засорения при различных сценариях.

a Вероятность засорения как функция средней скорости частиц v на выходе для размеров отверстий, указанных в двух легендах.Пустые символы соответствуют экспериментам, проведенным в этой работе, а сплошные символы — экспериментальным данным, уже опубликованным в Gella et al. 28 для бункера без препятствий. Сплошные линии представляют собой уравнения (1) с a  = 1,33 и b  = 0,0128 scm −1 параметры, найденные в Gella et al. 28 для бункера без препятствий. Пунктирные линии соответствуют одному и тому же выражению с a  = 1,406 и b  = 0.0153 scm −1 , параметры, соответствующие положению препятствия, реализованному в данной работе. b Вероятность засорения в зависимости от соотношения сторон D / d p в квазистатическом режиме. Фиолетовые ромбы соответствуют экспериментальным данным этой работы, а зеленые треугольники — экспериментальным данным, уже опубликованным в Gella et al. 28 для квазистатического режима. Пунктирные линии являются представления уравнения.(1) с теми же значениями a , введенными выше для случаев с препятствиями и без препятствий. Обратите внимание, что значение b в уравнении. (1) не имеет значения в квазистатическом режиме, так как v  →  0. Во всех случаях неопределенности, связанные с вероятностью засорения, меньше размера точки.

На рисунке 2а видно систематическое отклонение между данными, полученными с препятствием и без него: препятствие снижает вероятность засорения до <50% от эталонного значения без препятствия для всех скоростей, включая предельный сценарий квазистатического разряда (т.е., v  → 0). Это отражает на различных параметрах подходящих, полученных, когда присутствует препятствие ( A = 1,406 ± 0,004 и млн. = 0,0153 ± 0,0004 мкм -1 ), чем когда он не ( A = 1,33 и B = 0,0128 см −1 ) 28 . Как геометрические, так и динамические параметры меняются при размещении препятствия, что предполагает двойную роль его в предотвращении засорения. В самом деле, хотя приведенные в литературе объяснения роли препятствия были связаны с изменением динамических свойств системы вблизи отверстия, довольно ясно, что в квазистатическом пределе существует результирующая разница между двумя парами кривые, показанные на рис.2а.

Стремясь подтвердить эту особенность и оценить ее универсальность при изменении размера выпускного отверстия, мы провели серию экспериментов на квазистатическом пределе (рис. 2b), используя наименьшее доступное значение v b ( v б  = 0,1 см с −1 ). Однозначно, наличие препятствия приводит к снижению вероятности засорения даже тогда, когда ожидается, что динамика частиц будет играть незначительную роль. Следовательно, полученные результаты могут быть хорошо согласованы с уравнением(1) используя v  = 0, а затем один параметр подгонки a  = 1,406. Конечно, значение a такое же, как и значение, полученное при подгонке кривых p c против v для сценария с препятствием на рис. 2a.

Из этих результатов можно сделать вывод, что препятствие должно оказывать двоякое влияние на свойства системы: с одной стороны, оно может влиять на геометрические устройства, возникающие в квазистатическом режиме, а с другой стороны, оно также должно приводить к изменение динамики системы.Поэтому для подтверждения этой идеи перейдем к анализу воздействия препятствия в нескольких кинематических и статических (геометрических) величинах, которые могут быть связаны с развитием засорения.

Динамика

В этом разделе мы исследуем поведение различных величин, связанных с динамикой системы в области между препятствием и отверстием; т. е. положение, при котором развиваются дуги закупоривания. В частности, мы выбрали область размером 1,2 × 1,2 см 2 прямо над отверстием, как показано на рис.1б. Причина этого выбора состоит в том, чтобы охватить максимально возможную область, но не касаясь границ отверстия и препятствия, где частицы могут в конечном итоге накапливаться и искажать статистику. Несомненно, выбор области определяет полученные значения, так как и отверстие, и препятствие создают в своей окрестности сильные градиенты. Тем не менее, мы наблюдали аналогичные качественные результаты при условии, что анализируемая область находится в центре устья и охватывает его окрестности. Начнем отображать на рис.3а, б распределения скоростей частиц как в горизонтальном направлении ( v x ), так и в вертикальном направлении ( v z ). Ясно, что распределения 90 427 v 90 428 90 429 90 427 x 90 428 90 430 несколько шире для сценария с препятствием, чем без него, и этот результат можно понять, если мы подумаем, что препятствие заставляет частицы обходить его, тем самым увеличивая горизонтальную составляющую скорости и уменьшающую вертикальную.Это можно эффективно подтвердить, взглянув на распределения вертикальных скоростей, которые свидетельствуют о том, что препятствие приводит к небольшому уменьшению больших положительных скоростей (напомним, что нисходящие скорости имеют положительные значения). Эта особенность сопровождается уширением хвостов распределения в сторону отрицательных значений. Действительно, для случаев без препятствий все эти хвосты кажутся относительно расположенными друг над другом, тогда как при размещении препятствия они, кажется, расширяются по мере увеличения скорости извлечения.Отсюда можно сделать вывод, что наличие препятствия способствует движению частиц вверх над отверстием. Эта особенность, которая уже была связана с процессом дестабилизации свода в свободно разгружаемом силосе 28 , кажется более важной по мере увеличения скорости извлечения и скорости зерен.

Рис. 3: Динамические характеристики системы.

Экспериментальные функции плотности вероятности (pdf) ( a ) горизонтальной и ( b ) вертикальной составляющих скорости, измеренные в области, обозначенной красным прямоугольником на рис.{T} \) анализируется в красной рамке рис.1б) от скоростей частиц при пересечении выходного отверстия. f Двумерная фракция твердого вещества в области, отмеченной красным прямоугольником на рис. 1b, в зависимости от скорости частиц при пересечении выпускного отверстия. Пунктирная линия показывает \({\phi }_{{{{{{\mathrm{CP}}}}}}}=\pi \sqrt{3}/6\), максимальное значение, доступное для ϕ в эта система, которая соответствует плотной упаковке кругов в 2D. Неопределенности средних величин меньше, чем размер точек, поскольку они возникают в результате усреднения большого количества данных.

Тогда, чтобы подтвердить этот случай и лучше охарактеризовать влияние препятствия на динамику частиц при изменении скорости частиц, пересекающих выход v , 〈∣ v x ∣〉 и 〈 v z 〉 представлены как функция v (рис. 3c, d). Обход частиц вокруг препятствия, объясненный выше, подтверждается тем, что 〈∣ v x ∣〉 увеличивает и 〈 ​​ v z 〉 присутствие препятствия.{\ infty} pdf ({v} _ {z}) d {v} _ {z} \). Зависимость этой пропорции представлена ​​​​как функция скорости выхода зерен на рис. 3e, обнаруживая интересное поведение. При отсутствии препятствия доля смещений вверх для высоких выходных скоростей незначительна, но при уменьшении 90 427 v 90 428 она значительно увеличивается почти до 15% для наименьшего значения 90 427 v 90 428 . Такая же форма кривой наблюдается и для сценария с препятствием, но в этом случае все данные смещены вверх; я.{T}\) менее выражен для сценария с препятствием, что приводит к сближению обеих кривых при v  → 0. Отсюда можно интерпретировать, что влияние препятствия на кинематические свойства рассматриваемой системы отверстие минимизируется при уменьшении скорости, с которой частицы извлекаются из бункера. Если это так, то причина, по которой препятствие значительно снижает вероятность засорения в квазистатическом пределе, как показано на рис. 2, остается нераскрытой.

Первый показатель, который мог бы обосновать возможное происхождение уменьшения засорения в квазистатическом пределе, получен из анализа двумерной твердой фракции ϕ в области между выходом и препятствием. Действительно, как показано на рис. 3f, наличие препятствия вызывает образование под ним пустой щели, уменьшая твердую фракцию примерно на 0,1 единицы. Этот эффект, по-видимому, не зависит от скорости экстракции и, следовательно, сохраняется в квазистатическом пределе.Следовательно, более низкие доли упаковки будут соответствовать уменьшенной вероятности соприкосновения частиц друг с другом над выпускным отверстием, а затем и меньшей вероятности образования арок 31,32 . В качестве альтернативы можно предположить, что более низкие фракции упаковки вызывают меньшие давления в области развития свода, тем самым препятствуя их стабилизации. В самом деле, хотя увеличение давления может вызвать дестабилизацию арок, образовавшихся в системах, состоящих из деформируемых частиц 33,34 , было доказано, что такое же действие увеличивает прочность арок, образованных твердыми зернами, подвергающимися внешней вибрации 17 .

Статика

Судя по результатам, изложенным выше, необходима лучшая характеристика квазистатического режима. Поэтому в этом разделе мы проведем пространственный анализ контактов между частицами в области выхода для сценариев с препятствиями и без препятствий. С этой целью мы оценили весь зарегистрированный регион для нескольких статических конфигураций. Поскольку поток по своей природе является прерывистым 35 , чтобы избежать многократного отбора идентичных компоновок, мы решили исследовать систему каждый раз, когда поток временно останавливается (без образования засоряющей дуги) после перекомпоновки.На рис. 4а показано изменение во времени кинетической энергии E k в системе, определяемой как сумма кинетической энергии всех шариков в поле зрения камеры в каждом кадре. Конкретные моменты, которые мы рассмотрели для анализа, обозначены кружками; как показано, одна конфигурация оценивается каждый раз, когда зерна перестраиваются и снова останавливаются.

Рис. 4: Статические характеристики системы.

a Пример временной эволюции кинетической энергии зерен во всей регистрируемой области (над отверстием) для квазистатического режима.Красные кружки обозначают моменты, в которые анализируется тензор ткани. B B E Карты горизонтального F x

8 x C x x x x x x x Результаты соответствуют силосу с размером отверстия D  = 1,53 см без препятствий (панели верхнего ряда) и с ними (панели нижнего ряда). F , G , G , G , G Соответствующие карты отличия в отставках между горизонтальными и вертикальными компонентами контактной ткани Tensor ( F x , F Z Z ) / ( f x x  +  f z z ).{{{{{{\mathrm{c}}}}}}}}\) — нормированный вектор ветвления, связывающий центр частицы i с центрами ее контактирующих частиц. По этим данным были построены непрерывные поля этой величины (см. раздел «Методы»), в результате чего они сильно зависят от наличия препятствия. Карты горизонтальной составляющей тензора ткани ( f x x ) показывают заметное увеличение f x x ниже препятствия (рис.4c), поведение, которое явно связано с уменьшением значений вертикальной составляющей f z z (рис. 4e). Затем примерно одинаковые значения f x x и f z z , развитые выше устья, становятся неуравновешенными для беспрепятственного сценария из-за наличия препятствия. Это говорит о том, что препятствие вносит заметное анизотропное распределение контактов, поведение, которое лучше отражает перемасштабированная разница между горизонтальной и вертикальной компонентами тензора ткани контактов (( f x x  −  f Z Z Z Z ) / ( F x x x F Z Z )).По сути, значения, полученные над выпускным отверстием, близки к нулю в конфигурации без препятствий (рис. 4f), тогда как явно принимают положительные значения из-за весового экранирования препятствия (рис. 4g). Из этого результата можно сделать вывод, что препятствие препятствует развитию вертикальных контактов в области формирования арки, а горизонтальным – способствует. Если предположить, что такое поведение имеет место для ориентации сил, то типичная арка (в среднем полукруглая) будет сжата в горизонтальном направлении и, вполне возможно, дестабилизирована.

Динамическое предотвращение препятствий на основе обучения с подкреплением и интеграция планирования пути

В этом разделе мы разработаем модель предотвращения столкновений мобильных роботов (MCAL), основанную на обучении с подкреплением. В MCAL была принята парадигма децентрализованного предотвращения столкновений на уровне агента, аналогичная предыдущему исследованию доступности столкновений с несколькими агентами (MRCA) [15]. Однако, чтобы уменьшить разницу в эффективности избегания препятствий между симуляцией и реальными средами, а также для достижения высокой эффективности выборки и быстрой скорости обучения, MCAL обучался в среде с учетом динамики с использованием метода обучения на основе ценности, мягкого критика актера (SAC ) [16].

На рис. 3 показана структура MCAL, метода обхода препятствий на основе RL с непрерывным поведением, и каждый блок выполняет следующие задачи.

  • Робот получает данные о местоположении и скорости (/Одометрия) и лидарные данные (/Сканирование) посредством взаимодействия с внешней средой, мир .

  • Для локализации [17] сравнивались картографическая информация (/Map) и лидарные данные (/Scan), и на основе карты определялось положение робота (/Global Pose).

  • Относительная разница между целевым положением (/Goal) и положением робота на основе карты (/Global Pose) представляет собой расстояние от робота до целевого положения (/Relative Goal), которое становится входом Агент RL .

  • Агент RL собирает информацию о расстоянии между роботом и целевой позицией (/Relative Goal), 3 шагах данных лидарного сканирования (/Scan) и скорости робота (/Odometry.скорость) и выводит поступательную и вращательную скорость (/Velocity) движения в целевую точку без столкновения через обученную глубокую нейронную сеть обучения с подкреплением.

  • Робот движется, контролируя поступательную скорость и скорость вращения, полученные с помощью агента RL .

Этот процесс повторяется до тех пор, пока не будет достигнута целевая позиция.

Рис. 3

Структура обучения мобильного робота предотвращению столкновений

Формулировка обучения с подкреплением

Состояние

окружающая среда, поступательная скорость v и скорость вращения \(\omega \) робота, а также относительные расстояния x и y от робота до целевого положения как

$$\begin{ выровнено} s_{t} =&[s_{t}^{\text {лидар}}, s_{t}^{\text {цель}}, s_{t}^{\text {скорость}}] \end {выровнено}$$

(3)

где \(s_{t}^{\text {лидар}} = [o_{\text {l}}^{t-2}, o_{\text {l}}^{t-1}, o_ {\ text {l}} ^ {t}] \), \ (s_ {t} ^ {\ text {goal}} = o _ {\ text {g}} ^ t = [x, y] \), и \(s_ {t} ^ {\ text {скорость}} = o _ {\ text {s}} ^ t = [v, \ omega] \).{\ текст {скорость}} \).

Действие

Поведение мобильного робота может быть определено как непрерывное поведение, обеспечивающее плавное движение и уклонение различными способами, и состоит из двумерной информации со скоростью движения вперед v и скоростью вращения \(\omega \ ) следующим образом.

$$\begin{выровнено} a_{t} =&[v, \omega] \end{выровнено}$$

(4)

где v , \(\omega \) являются непрерывными значениями и имеют предельные ограничения скорости \(v \in [0.00, 0,55]\), \(\omega \in [-0,60, 0,60]\).

Рис. 4

Сети актеров и критиков для обучения предотвращению столкновений мобильных роботов

Награда

не беспокоило, поскольку робот с дифференциальным приводом может легко вращаться на месте. Чтобы достичь целевого положения, необходимо вождение с уклонением от препятствий посредством обучения с подкреплением, не сталкиваясь с препятствиями и оставаясь в пределах производительности.Поэтому вознаграждение тоже считалось отдельно. Общая функция вознаграждения представляет собой сумму этих трех функций вознаграждения,

$$\begin{aligned} R =&R _{\text {g}} + R _{\text {c}} + R _{\omega}. \end{выровнено}$$

(5)

Если мобильный робот достигает целевой позиции, агент получает большую награду в размере 10. Кроме того, при движении к целевой позиции, если расстояние до цели становится короче, чем раньше, то также дается награда по мере движения робота в правильном направлении.2}. \end{выровнено}$$

(7)

Движение в направлении от целевой позиции повлечет за собой штраф, соответствующий расстоянию, пройденному за один шаг, а движение в направлении, близком к целевой позиции, приведет к награде, соответствующей расстоянию, пройденному за один шаг.

Вознаграждение \(R_{\text {c}}\) налагает большой штраф -10 при столкновении с препятствием, политике, которой необходимо научить робота избегать столкновений с препятствиями.

$$\begin{align} R _{\text {c}} = {\left\{ \begin{array}{ll} -10 &{} \text {if Collision} \\ 0 &{} \text {иначе.} \end{массив}\right. } \end{выровнено}$$

(8)

Последнее вознаграждение \(R_{\omega }\) относится к пределу производительности робота как к штрафу, а не к уравнению ограничения. Когда тяжелый робот SR7 массой 150 кг быстро вращается, им трудно управлять из-за инерции, поэтому \(R_{\omega}\) накладывает большой штраф на скорость вращения сверх порогового значения, чтобы предотвратить проблему.

$$\begin{align} R _{\omega } = {\left\{ \begin{array}{ll} -0,1 | \омега | &{} \hbox { если}\ | \омега | > 0.6 \\ 0 &{} \text {иначе.} \end{массив}\right. } \end{выровнено}$$

(9)

Вес каждой награды был определен после проб и ошибок в ходе эксперимента, чтобы робот научился различным методам уклонения от препятствий в зависимости от ситуации, таким как уклонение за счет ускорения и замедления, уклонение от остановки и уклонение от изменения направления.

Условия завершения

Условие завершения для остановки эпизода в тренировке рассчитано на 3 случая, а именно: при достижении роботом целевого положения, при столкновении с препятствием и при количестве шагов для прохождения эпизода более 2000

$$\begin{aligned} T = {\left\{ \begin{array}{ll} \text {True} &{} \text { if (достигнута цель} \textit{or} \text { Столкновение }{} \textit{или} \text { шаг}>2000) \\ \text {False} &{} \text { иначе} \end{массив}\right.} \end{выровнено}$$

(10)

Предельное условие в 2000 шагов подавляет стремление достичь целевой позиции путем длительного зависания вокруг целевой позиции или уклонения от препятствия путем движения по неэффективному пути. Без таких ограничений робот научится очень безопасному уклонению от препятствий, например, замедлению или остановке, набирая только небольшие \(R_{\text {g}}\) в течение длительного времени.

Сеть

Для применения алгоритма SAC для предотвращения столкновений были построены сеть акторов для получения политики и сеть критиков для получения Q-функции для вычисления стоимости политики.

Что касается сети MRCA [18], сеть акторов, показанная на рис. 4a, состояла из двух слоев свертки, трех полносвязных слоев, двух функций нелинейной активации ReLU и одной функции линейной активации. Среди состояний в 3 были введены лидарные данные 512 \(\times \) 3 , соответствующие 3 шагам расчета, и они прошли через два слоя свертки для получения временного изменения.

Эта информация в сочетании с относительным расстоянием ( x y ) от робота до целевой позиции и скоростью робота \((v,\omega )\) прошла через два полностью связанных слоя.t_{logstd}\) образуют гауссово распределение действий. Последнее действие \(a_{t}\) было сэмплировано.

Сеть Critic, показанная на рис. 4b, аналогична сети Актера, но было добавлено действие, полученное из сети Актера, и конечным полученным результатом является значение Q.

Обучение

Среда обучения

Для моделирования обучения использовались два тренажера. Первый симулятор, т. е. симулятор Stage [19] на рис. 5a, учитывает только кинематические факторы, поэтому поведение, обозначающее динамические характеристики, такие как инерция и трение, не может быть точно обучено, что приводит к значительным различиям между реальным миром и тренировочной средой. .Тем не менее, время моделирования может быть ускорено благодаря легкому симулятору, позволяющему использовать преимущество быстрого обучения.

Рис. 5

Среда для тренажеров «Сцена» и «Беседка» для обучения

Второй тренажер — тренажер «Беседка» [20] на рис. 5б. Он учитывает динамические факторы, такие как инерция и трение, а также кинематические факторы. Разница между реальной и тренировочной средами также существует для симулятора Gazebo, но эту разницу можно уменьшить.Недостатком является более длительное время моделирования. Принимая во внимание эти преимущества и недостатки, после быстрого обучения в симуляторе Stage сети актеров и критиков были снова обучены в симуляторе Gazebo, чтобы уменьшить разницу между реальным миром и средой обучения.

Учебная среда в симуляторе Stage была настроена для круглого пространства диаметром 30 м, в котором случайным образом размещались 7 статических объектов и 4 динамических объекта, которые не имеют политики уклонения и движутся по прямой линии со случайными скоростями от 0.5 и 1 м/с. На рис. 5а красные квадраты — это роботы, синие — динамические объекты, черные — статические объекты. Мы также задействовали 4 роботов для одновременного обучения политике, и это обучение с несколькими роботами имеет то преимущество, что каждый робот рассматривает других как динамические препятствия, чтобы научиться избегать препятствий с помощью различных движений. Более того, поскольку 4 робота вместе собирали необходимую информацию для обучения, это может увеличить скорость обучения. Учебная среда в симуляторе Gazebo была настроена на квадратное пространство 20 м на 20 м, размещая объекты случайным образом, как и сценическая среда, и 4 робота обучались политике одновременно.На рис. 5b белые прямоугольники обозначают роботов, цели которых отмечены красным, синим, желтым и белым кругами по отдельности. Идущие люди были динамическими объектами, а серые коробки и цилиндры — статическими объектами.

Алгоритм обучения

После попыток обучения с использованием различных алгоритмов мы использовали SAC для обучения весов глубоких нейронных сетей.

SAC — это алгоритм обучения вне политики, который может использовать всю информацию, собранную в процессе обучения, для глубокого обучения нейронной сети.TE_{\pi}[r(s_t, a_t, s_{t+1}) + \alpha H(\pi (\cdot | s_{t})]. \end{aligned}$$

(11)

К существующей целевой функции добавлена ​​функция энтропии H и гиперпараметр \(\alpha \), определяющий относительную важность компенсационной энтропии. При обучении с SAC агент действует более хаотично, что должно привести к эффективному обучению. Поскольку сгенерированное распределение Гаусса является относительно плоским, и если оптимальная политика не работает в реальной среде из-за разницы между обучением и реальной средой, есть возможность решить проблему с помощью следующей лучшей политики.

На самом деле, мы сравнили результаты после обучения с алгоритмом на основе политики Proximal Policy Optimization (PPO), и было подтверждено, что SAC достигает более высокой скорости обучения благодаря высокой эффективности выборки.

Алгоритм вне политики, SAC, требует воспроизведения памяти для хранения сгенерированных значений состояния, вознаграждения и действия на каждом этапе процесса обучения, а соответствующая структура обучения, показанная на рис. 6, может улучшить политику с помощью сохраненной информации. в этом репозитории.Предварительная обработка на рис. 6 относится к процессу получения глобальной позы из данных сканирования, данных одометрии и картографических данных. Он преобразует информацию, полученную из окружающей среды, в соответствии с вводом сети.

Рис. 6

Структура обучения для обучения предотвращению столкновений мобильных роботов

Результат обучения

Политика была обучена с использованием симулятора Stage с гиперпараметрами в таблице 2. График вознаграждения на рис. 7 подтвердил сходимость политики из 20000 серий.Кроме того, политика с еще 3000 эпизодами была обучена с использованием симулятора Gazebo, чтобы уменьшить разницу между учебной средой и реальной средой.

Таблица 2 Гиперпараметры для обучения в SAC Рис. 7

Награда за обучение симуляции сцены

Задача динамического уклонения от препятствий на основе RL

Подтверждено, что робот успешно обучен в соответствии с описанным выше процессом и может двигаться, не сталкиваясь со статическими и динамическими препятствиями на открытых пространствах.В частности, было впечатляюще по-разному реагировать на динамические и статические препятствия. По мере приближения динамических препятствий поступательная скорость значительно уменьшается, скорость вращения значительно увеличивается, а по мере замедления движения динамического препятствия изменения скоростей уменьшаются.

Однако при перемещении робота из точки A в точку B в виртуальной среде были обнаружены определенные проблемы, как показано на рис. 8a.

Рис.8

Проблема с MCAL (квадратный маркер: начальная точка, круговой маркер: конечная точка)

Путь движения робота показан на рис. достигает целевой точки и продолжает парить вокруг стены. Эта проблема была вызвана противоречивыми задачами робота минимизировать расстояние от целевой точки и сохранять определенное расстояние до препятствия при движении по предложенному способу.Таким образом, в соответствии с действием, предложенным обученной политикой MCAL, робот движется по неэффективному пути, что приводит к проблеме не нахождения направления движения при определенных обстоятельствах. Это происходит в определенных ситуациях, например, при наличии препятствий перед роботом, что может быть связано с отсутствием лидарных данных и отсутствием обучающей информации в различных средах.

Эти проблемы можно решить, много тренируясь в различных условиях.Кроме того, предыдущие исследования навигации роботов на основе RL решили эту проблему за счет эффективного исследования. [21, 22]. Однако выучить оптимальный путь, сравнимый с традиционными алгоритмами решения оптимизационных задач, невозможно. Решение проблем путем исследования, скорее всего, не позволит найти оптимальный путь, если значение наблюдения генерируется одинаково для сложной и обширной среды. Поэтому мы попытались решить эти проблемы, интегрировав навигацию мобильного робота на основе RL с традиционным методом.

Безопасный и эффективный маневр смены полосы движения для предотвращения препятствий, вдохновленный образцом вождения человека

%PDF-1.4 % 1 0 объект > эндообъект 8 0 объект /Заголовок /Тема /Автор /Режиссер /Ключевые слова /CreationDate (D:20220219135437-00’00’) /ModDate (D:20210811005434+02’00’) >> эндообъект 2 0 объект > эндообъект 3 0 объект > эндообъект 4 0 объект > эндообъект 5 0 объект > эндообъект 6 0 объект > эндообъект 7 0 объект > поток приложение/pdf

  • IEEE
  • Транзакции IEEE в интеллектуальных транспортных системах; ;ПП;99;10.1109/ТИЦ.2020.3034099
  • Безопасный и эффективный маневр смены полосы движения для предотвращения препятствий, вдохновленный человеческим стилем вождения
  • Путь непрерывной кривизны
  • модель вождения человека
  • клотоида
  • маневр смены полосы движения
  • обход препятствий
  • пассажирский комфорт.
  • Транзакции IEEE в интеллектуальных транспортных системах199PP10.1109/TITS.2020.303409915Aspose.Pdf для .NET 8.3.0; изменено с помощью iText® 5.5.6 © 2000-2015 iText Group NV (версия AGPL) Непрерывный кривизнальный путь; характер вождения человека; клотоид; маневр смены полосы движения; уклонение от препятствий; комфорт пассажира.2021-08-11T00:54:34+02:002021-08-11T00:54:34+02:002021-08-11T00:54:34+02:00uuid:21e28ced-1ab9-401a-b7ca-8ebf92b2bc5fuuid :14b3bdd3-c7a7-4ee9-8fd1-dd775178cd12 конечный поток эндообъект 9 0 объект > эндообъект 10 0 объект > эндообъект 11 0 объект > эндообъект 12 0 объект > эндообъект 13 0 объект > эндообъект 14 0 объект > эндообъект 15 0 объект > эндообъект 16 0 объект > эндообъект 17 0 объект > эндообъект 18 0 объект > эндообъект 19 0 объект > эндообъект 20 0 объект > эндообъект 21 0 объект > эндообъект 22 0 объект > эндообъект 23 0 объект > эндообъект 24 0 объект > /ProcSet [/PDF /Text /ImageC /ImageB /ImageI] >> эндообъект 25 0 объект > поток xڝXɎ#7+\#Q;`dAroAv;9ETNO(%QGROT`*͵M_pg >’3L/wtJ.

    alexxlab / 25.03.1989 / Разное

    Добавить комментарий

    Почта не будет опубликована / Обязательны для заполнения *