Типобезопасность

Материал из Википедии — свободной энциклопедии
Типизация данных

Типобезопасность (англ. type safety) — свойство языка программирования, характеризующее безопасность и надёжность в применении его системы типов.

Система типов называется безопасной (англ. safe) или надёжной (англ. sound), если в программах, прошедших проверку согласования типов (англ. well-typed programs или well-formed programs), исключена возможность возникновения ошибок согласования типов во время выполнения[1][2][3][4][5][6].

Ошибка согласования типов или ошибка типизации (англ. type error) — несогласованность типов компонентов выражений в программе, например попытка использовать целое число в роли функции[7]. Пропущенные ошибки согласования типов на этапе выполнения могут приводить к багам и даже крахам программ. Безопасность языка не является синонимом полного отсутствия багов, но, по меньшей мере, они становятся исследуемы в рамках семантики языка (формальной или неформальной)[8].

Надёжные системы типов также называют сильными (англ. strong)[1][2], но трактовка этого термина часто смягчается, кроме того, его часто применяют к языкам, осуществляющим динамическую проверку согласования типов (сильная и слабая типизация).

Иногда безопасность рассматривается как свойство конкретной программы, а не языка, на котором она написана — по той причине, что некоторые типобезопасные языки разрешают обойти или нарушить систему типов, если программист практикует скудную типобезопасность. Распространено мнение, что такие возможности на практике оказываются необходимостью, но это вымысел[9]. Понятие о «безопасности программы» важно в том смысле, что реализация безопасного языка сама может быть небезопасной. Раскрутка компилятора решает эту проблему, обеспечивая языку безопасность не только в теории, но и на практике.

Подробности

Робину Милнеру принадлежит выражение «Программы, прошедшие проверку типов, не могут „сбиться с пути истинного“»[10]. Иначе говоря, безопасная система типов предотвращает заведомо ошибочные операции, связанные с неверными типами. Например, выражение 3 / "Hello, World" очевидно является ошибочным, поскольку арифметика не определяет операцию деления числа на строку. Формально, безопасность означает гарантию того, что значение любого выражения, прошедшего проверку типов, и имеющего тип τ, является истинным элементом множества значений τ, то есть будет лежать в границах диапазона значений, допустимого статическим типом этого выражения. На самом деле, в этом требовании есть нюансы — см. подтипы[англ.] и полиморфизм для сложных случаев.

Кроме того, при интенсивном использовании механизмов определения новых типов предотвращаются логические ошибки, проистекающие из семантики различных типов[5]. Например, и миллиметры, и дюймы являются единицами длины и могут представляться целыми числами, но будет ошибкой вычитать дюймы из миллиметров, и развитая система типов не допустит этого (разумеется, при условии, что программист использует для значений, выраженных в различных единицах, различные типы данных, а не описывает и те, и другие как переменные целого типа). Другими словами, безопасность языка означает, что язык защищает программиста от его собственных возможных ошибок[9].

Многие языки системного программирования (например, Ада, Си, C++) предусматривают ненадёжные (англ. unsound) или небезопасные (англ. unsafe) операции, предназначенные для возможности нарушить (англ. violate) систему типов — см. приведение типа и каламбур типизации. В одних случаях это допускается лишь в ограниченных частях программы, в других — неотличимо от хорошо типизированных операций[11].

В мейнстриме[

указатель», то небезопасность доступа к памяти очевидна (см. Висячий указатель). Примерами небезопасных языков служат Си и C++[4]. В сообществах этих языков часто называют «безопасными» любые операции, непосредственно не приводящие к краху программы. Безопасность доступа к памяти также означает предотвращение возможности переполнения буфера
, например, попытки записи крупноразмерных объектов в ячейки, выделенные для объектов другого типа меньшего размера.

Надёжные статические системы типов консервативны (избыточны) в том смысле, что отвергают даже программы, которые исполнились бы корректно. Причина этого заключается в том, что для любого

рантайм
-системой самого языка, либо непосредственно функциями, реализующими подобные потенциально небезопасные операции.

Сильно динамически типизируемые языки (например, ЛиспПерейти к разделу «#Лисп», Smalltalk) не допускают повреждения данных за счёт того, что программа, пытающаяся преобразовать значение к несовместимому типу, порождает исключение. К достоинствам сильной динамической типизации перед типобезопасностью можно отнести отсутствие консервативности, и, как следствие, расширение спектра решаемых задач программирования. Ценой этого становится неизбежное снижение быстродействия программ, а также необходимость существенно бо́льшего количества пробных запусков для выявления возможных ошибок. Поэтому многие языки комбинируют возможности статического и динамического контроля согласования типов тем или иным образом.[14][12][1]

Примеры безопасных языков

Ада

системного программирования
. Для реализации критичных секций Ada предоставляет ряд небезопасных конструкций, имена которых обычно начинаются с Unchecked_.

Язык SPARK является подмножеством Ады. Из него устранены небезопасные возможности, но добавлены возможности проектирования по контракту. SPARK исключает возможность возникновения висячих указателей посредством исключения самой возможности динамического выделения памяти. Статически проверяемые контракты были добавлены в Ada2012.

Хоар в тьюринговской лекции утверждал, что для обеспечения надёжности мало статических проверок — надёжность в первую очередь является следствием простоты[15]. Тогда же он предсказал, что сложность Ады станет причиной катастроф.

BitC

системного программирования
.

Cyclone

Исследовательский язык

сборки мусора для обеспечения динамической безопасности — вместо этого он основан на управлении памятью посредством регионов
. Cyclone устанавливает более высокую планку требований безопасности исходного кода, и из-за небезопасной природы Си портирование даже простых программ с Си на Cyclone может потребовать определённой работы, хотя немалая её часть может быть проделана в рамках Си до смены компилятора. Поэтому Cyclone часто определяют не как диалект Си, а как «язык, синтаксически и семантически похожий на Си».

Rust

Многие идеи Cyclone нашли воплощение в языке Rust. Помимо сильной статической типизации в язык добавлен статический анализ времени жизни указателей, основанный на концепции «владения». Реализованы статические ограничения, блокирующие потенциально некорректный доступ к памяти: отсутствуют нулевые указатели, невозможно появление неинициализированных и деинициализированных переменных, запрещено совместное использование изменяемых переменных несколькими задачами. Проверка на выход за пределы массива обязательна.

Haskell

Haskell (потомок MLПерейти к разделу «#ML») изначально разрабатывался как полнотиповый чистый язык, что должно было сделать поведение программ на нём ещё более предсказуемым, чем на ранних диалектах MLПерейти к разделу «#ML». Однако, позже в стандарте языка были предусмотрены небезопасные операции[16][17], необходимые в повседневной практике, хотя и отмеченные соответствующими идентификаторами (начинающимися с unsafe)[18].

класса типов Typeable, с учётом того, что исключения генерируются безопасным кодом (за пределами монады IO); и классифицирует выдаваемое компилятором сообщение о внутренней ошибке как несоответствующее слогану МилнераПерейти к разделу «#Определение». В последовавшем обсуждении было показано, как можно было бы реализовать в Хаскеле статически типобезопасные исключения в стиле Standard MLПерейти к разделу «#Standard ML»
.

Лисп

«Чистый» (минимальный) Лисп представляет собой

Lisp представлено по большей степени сильно динамически типизируемыми языками, но существуют статически типизируемые
и сочетающие обе формы типизации.

SBCL способен сам их выводить), однако, эта возможность используется для оптимизации и усиления динамических проверок и не означает статическую типобезопасность. Программист может установить для компилятора сниженный уровень динамических проверок с целью повышения быстродействия, и скомпилированная таким образом программа уже не может считаться безопасной[20][21]
.

Язык

Scheme также является сильно динамически типизируемым языком, но компилятор Stalin[англ.] статически выводит типы, используя их для агрессивной оптимизации программ. Языки «Typed Racket» (расширение Racket Scheme) и Shen[англ.] типобезопасны. Clojure
сочетает сильный динамический и статический контроль типов.

ML

Язык

продолжениями («Control ML»), сперва мономорфными, затем полиморфными[2]
.

Следствием этого стало то, что потомки ML зачастую априори считаются типобезопасными, даже несмотря на то, что некоторые из них откладывают значимые проверки на этап выполнения программы (OCaml), либо отклоняются от семантики, для которой построено доказательство надёжности, и содержат небезопасные возможности явным образом (HaskellПерейти к разделу «#Haskell»). Для языков семейства ML характерна развитая поддержка алгебраических типов данных, использование которых существенно способствует предотвращению логических ошибок, что также поддерживает впечатление типобезопасности.

Некоторые потомки ML так же являются инструментами интерактивного доказательства (Idris, Mercury, Agda). Многие из них, хотя и могли бы использоваться для непосредственной разработки программ с доказанной надёжностью, чаще используются для верификации программ на других языках — из-за таких причин как высокая трудоёмкость использования, низкое быстродействие, отсутствие FFI[англ.] и прочее. Среди потомков ML с доказанной надёжностью выделяются как ориентированные на промышленное применение языки Standard MLПерейти к разделу «#Standard ML» и прототип его дальнейшего развития successor ML[22] (ранее известный как «ML2000»).

Standard ML

Язык

рантайм-системой. Как следствие, даже содержащая ошибку программа на Standard ML всегда продолжает вести себя как ML-программа: она может навечно уйти в расчёты или выдать пользователю сообщение об ошибке, но она не может обрушиться[9]
.

Однако, некоторые реализации (

рантайм-систему, написанную на Си. Другим примером является режим REPL компилятора SML/NJ[англ.]
, использующий небезопасные операции для исполнения интерактивно вводимого программистом кода.

Язык Alice является расширением Standard ML, предоставляя возможности сильной динамической типизации.

См. также

Примечания

  1. 1 2 3 Ахо-Сети-Ульман, 1985, 2001, 2003, Статическая и динамическая проверка типов, с. 340.
  2. 1 2 3 Wright, Felleisen, 1992.
  3. Cardelli - Typeful programming, 1991, с. 3.
  4. 1 2 Mitchel - Concepts in Programming Languages, 2004, 6.2.1 Type Safety, с. 132—133.
  5. 1 2 Java is not type-safe.
  6. Harper, 2012, Chapter 4. Statics, с. 35.
  7. Mitchel - Concepts in Programming Languages, 2004, 6.1.2 Type Errors, с. 130.
  8. Appel - A Critique of Standard ML, 1992, Safety, с. 2.
  9. 1 2 3 Paulson, 1996, с. 2.
  10. Milner - A Theory of Type Polymorphism in Programming, 1978.
  11. Cardelli - Typeful programming, 1991, 9.3. Type violations, с. 51.
  12. 1 2 Mitchel - Concepts in Programming Languages, 2004, 6.2.2 Compile-Time and Run-Time Checking, с. 133—135.
  13. Pierce, 2002, 1.1 Типы в информатике, с. 3.
  14. Cardelli - Typeful programming, 1991, 9.1 Dynamic types, с. 49.
  15. C.A.R. Hoare — The Emperor’s Old Clothes, Communications of the ACM, 1981
  16. unsafeCoerce Архивная копия от 29 ноября 2014 на Wayback Machine (язык Haskell)
  17. System.IO.Unsafe Архивная копия от 29 ноября 2014 на Wayback Machine (язык Haskell)
  18. 1 2 Haskell Is Exceptionally Unsafe.
  19. Cardelli, Wegner - On Understanding Types, 1985, 1.1. Organizing Untyped Universes, с. 3.
  20. Common Lisp HyperSpec. Дата обращения: 26 мая 2013. Архивировано 16 июня 2013 года.
  21. SBCL Manual — Declarations as Assertions. Дата обращения: 20 января 2015. Архивировано 20 января 2015 года.
  22. successorML. Дата обращения: 23 декабря 2014. Архивировано из оригинала 7 января 2009 года.
  23. Appel - A Critique of Standard ML, 1992.
  24. Robin Milner, Mads Tofte. Commentary on Standard ML. — Universiry of Edinburg, University of Nigeria, 1991. Архивировано 1 декабря 2014 года.

Литература

Ссылки