Найти термины в тексте

УДК 81’42

РОЛЬ ТЕРМИНОВ В СОЗДАНИИ СВЯЗНОСТИ НАУЧНОПОПУЛЯРНОГО ТЕКСТА

© Ф. У. Жаббарова

Башкирский государственный университет

Россия, Республика Башкортостан, 450074 г. Уфа, ул. Заки Валиди, 32.

Тел.: +7 (937) 490 46 02.

E-mail: firuza08 @ya ndex.ru

В статье рассматривается и выявляется специфика терминологической лексики, используемой в научно-популярном тексте. Проводится разграничение понятий когезии и когерентности в рамках категории связности. Устанавливаются основные терминологические средства, реализующие связность в тексте научно-популярной статьи.

Ключевые слова: научно-популярный текст, лексические средства, термины, когезия, когерентность, номинативные цепочки, буквальный лексический повтор.

Связность в научно-популярном тексте может быть выражена различными языковыми и неязыковыми средствами. Одним из лексических средств связности в названном виде текста являются термины.

В научных текстах, в том числе и в научно-популярных, используются три основные группы лексики, а именно: общеупотребительная, общенаучная и терминологическая лексика. К общеупотребительной лексике относятся наиболее часто встречающиеся здесь слова общего языка, которые составляют основу всякого научного изложения. В состав общенаучной лексики входят слова, при помощи которых описываются явления и процессы в разных областях науки и техники и которые закреплены за определенными понятиями.

В современных исследованиях используется также понятие специальная лексика. В ее состав входят лексические единицы, обозначающие предметы и понятия, относящиеся к различным сферам трудовой деятельности. Данные слова не являются общеупотребительными, поскольку являются профессионализмами и терминами . Не в последнюю очередь именно насыщенность данных текстов терминологической лексикой позволяет отнести его к научному стилю. По данным некоторых исследователей (см. работы О. Д. Митрофановой), в лингвистических, физико-математических, медико-биологических текстах среди знаменательных слов термины достигают 70-79 %.

В работах, посвященных вопросам терминологии, под термином понимают слово или словосочетание, выполняющее строго номинативную функцию, функцию наименования специального понятия, названия специального предмета и явления. Термин любой отрасли знания выражает специальное профессиональное, научное или техническое понятие, в отличие от общеупотребительных слов, выражающих общие представления или бытовые понятия .

По употребительности в различных сферах профессионального общения выделяют три группы терминов: общенаучные, межотраслевые и узкоспециальные термины. Общенаучная лексика встречается в различных научных дисциплинах и выражает специальные понятия широкого профиля (der Prozeft, die Funktion, das Mittel, der Faktor, die Zeit), которые соотно-

сятся с объектами, явлениями, процессами, свойствами и т.п. в разных областях изучаемой действительности.

Ко второй группе терминов относится межотраслевая или профильная лексика, которая функционально ориентирована на более узкую сферу употребления. Межотраслевая терминология обладает наибольшей тематической продуктивностью, а ее языковые элементы свободно вливаются в разные научные дисциплины, например, физические термины, такие как die Energie, das Feld, die Leistung, die Beschleunigung, die Kraft, должен знать как специалист в области оптики, так и радиофизик, специалист по физике твердого тела и др. Третью группу терминов составляет узкоспециальная лексика, выражающая понятия отдельно взятой дисциплины: elektromagnetisches Feld (радиофизика), algebraische Grofte (математика), Gastritis (медицина). М. Н. Кожина справедливо подчеркивает, что узкоспециальная терминология обладает сильной функциональной стилистической окраской: использование ее в непривычной сфере не только затрудняет понимание, но и с очевидностью приводит к неприятию самого факта ее употребления в данной сфере.

С точки зрения внутренней структуры, терминология каждой области науки и техники представляет собой определенные структурные типы, или терминомодели. В основу классификации терминологии кладется, прежде всего, признак количества компонентов (терминообразующих элементов), составляющих термино-сочетание. Ядро любой терминологии составляют однокомпонентные термины (термины-слова). На базе однословных терминов строятся более сложные термино-образования: терминологические словосочетания. Различают двухкомпонентные, трехкомпонентные и многокомпонентные термины-словосочетания. Термины-словосочетания создаются по определенным продуктивным моделям, базирующимся на моделях общелитературного языка. По морфологическому типу главного слова выделяются: 1) субстантивные словосочетания; 2) адъективные словосочетания; 3) глагольные словосочетания. В соответствии с типом структуры термины-словосочетания подразделяются на простые и сложные .

Системный характер терминологии проявляется в распределении терминов-слов и словосочетаний по некоторым семантически объединенным группам. Объединения слов, основанные не на лексико-семантических связях, а на классификации самих предметов и явлений (внеязыковых связях) называются тематическими разрядами или группами. Категориальносемантическая характеристика объединяет термины на основе широких по назначению семантических групп, или категорий: 1) термины с предметным значением, называющие конкретные предметы, вещи, лица, факты и все явления действительности, которые могут быть представлены в отдельности и подвергнуты счету; 2) термины с вещественным значением, называющие вещества, которые поддаются измерению, а не счету; 3) термины с абстрактным значением, называющие отвлеченные понятия, явления, свойства, действия, величины .

В рамках научного дискурса, под которым мы понимаем всю совокупность текстов научной сферы коммуникативной деятельности, возможно разграничение различных подгрупп текстов. Так, некоторые авторы , в зависимости от специфики научного изложения и получаемых при этом видов текстов как результатов научной деятельности выделяют несколько подстилей: собственно научный (академический) подстиль, научно-учебный, научно-деловой и научно-популярный подстиль.

Иной точки зрения придерживается О. А. Крылова , выделяющая в рамках книжно-литературной речи как средства коммуникации в различных сферах общественной деятельности две группы текстов: научные и научно-популярные тексты. В группу научных текстов автор включает не только письменные монологические тексты (научные монографии, диссертации, научные статьи, авторефераты, рецензии, аннотации, резюме), но и устные монологические тексты (лекции, научные доклады), а также устные диалогиче-ские/полилогические тексты. К последним относится, например, научная дискуссия. Согласно принятой классификации, в группу научно-популярных текстов входят научнопопулярные статьи, учебники и учебные пособия, лекции, аннотации к художественным и научно-популярным произведениям.

В работах ряда отечественных лингвистов, затрагивающих вопросы классификации текстов научной прозы (ср. работы М. П. Брандес, Е. С. Троянской), к научно-популярным относятся, как правило, только статьи. В частности, наряду с существованием собственнонаучной, передовой статьи, историко-научной, обзорной, дискуссионной (полемической) статьи, рекламной, опытно-конструкторской, статьи, заключающей в себе краткое сообщение о результатах научно-исследовательских и опытно-конструкторских работ, признается существование и научно-публицистической статьи .

Использование терминов в научно-популярной статье имеет свои особенности. Значительную часть терминологической лексики данного вида текста составляют общеупотребительные термины, поскольку его изложение должно быть доступно широкому кругу реципиентов. Научно-популярный текст отличается от собственно научного текста, описывающего, изучающего и объясняющего факты, предметы и явления действительности в виде законов и закономерностей, прежде всего своей адресностью. Непременный учет адресата выражается в диалогичности научно-популярного текста . Для текстов названной дискурсивной принадлежности характерны подробность изложения, раскрытие общих положений на конкретных примерах, подчеркнутость хода логической мысли, активизация внимания читателя с помощью вопросно-ответного хода и других приемов, использование средств словесной образности (чаще всего сравнений), стремление к оригинальному изложению. Достижение своеобразных черт научно-популярного текста осуществляется с использованием различных языковых средств: морфологических, синтаксических, стилистических и лексических.

В своей совокупности языковые средства, в том числе и термины, способствуют актуализации различных категорий текста, в частности и категории связности. В рамках названной категории дифференцируют, как правило, два понятия: когезию и когерентность. В. Дресслер и Р. Богранд высказывают мнение, что разграничение понятий «когезия» и «когерентность» является следствием раздельного рассмотрения поверхностной и глубинной структуры (содержательного плана) текста. В энциклопедическом словаре Г. Буссманн когерентность различается в широком и узком смысле слова.

Под когерентностью в широком смысле понимается текстообразующая связь предложений, которая охватывает все виды грамматических и семантических отношений. Когерентными средствами текста являются, прежде всего, семантические структуры, например, каузальная или темпоральная коннексия. В узком смысле когерентность разграничивается грамматическими внутритекстовыми связями (когезия) и обозначает лежащую в основе когезии семантическую смысловую связь текста, его содержательно-семантическую или ког-

нитивную структуру. В новейших работах немецких авторов подчеркивается, что когезия является областью выражения (der ausdrucksseitige Bereich), а когерентность представляет собой область содержания (der inhaltsseitige Bereich) . Когезия реализуется в тексте посредством номинационных цепочек или топиков, на основе которых происходит «топика-лизация», т.е. семантическая организация текста.

Между элементами топикальной цепочки могут существовать различные семантические отношения. Прежде всего следует обратить внимание на их направленность, которая может быть левосторонней (анафорической), правосторонней (катафорической) или двусторонней (анафоро-катафорической) межфразовой связью. Кроме того, она может быть контактной, или дистантной. В первом случае компоненты топикальной цепочки располагаются в следующих непосредственно друг за другом высказываниях, во втором — в высказываниях, находящихся между собой на определенной дистанции.

В качестве важнейшего лексического средства связности в рассматриваемом виде научно-популярного текста выступают различные виды повторов, в вербализации которых употребляются термины. Так, здесь широко используется буквальный лексический повтор, например: Schwere (1) Atomkerne zerlegen — das bedeutet: (2) Atomkerne spalten. Heute weift man, dass fast alle (3) Atomkerne spaltbar sind . В приведенном примере номинативная цепочка складывается из термина (1) Atomkerne — (2) Atomkerne — (3) Atomkerne.

В номинативных цепочках, организующих текст научно-популярной статьи, часто используется и повтор однокоренных слов, ср.: Viele der bei den Kernspaltungen entstehenden Spaltprodukte sind radioaktiv. Radioaktivitat ist jedoch keine Erfindung des Menschen, sondern eine naturliche Eigenschaft: Radioaktive Atome im Erdinneren erzeugen Erdwarme, die im Thermalheil-bad ausgenutzt werden kann . В приведенном примере представлен следующий повтор однокоренных слов, относящихся в своей совокупности к терминологической лексике: radioaktiv, Radioaktivitat, radioaktive Atome.

Н. С. Болотнова справедливо замечает, что в основе связности текста лежит повтор. Употребление в тексте различных повторов позволяет говорить о так называемой рекурренции (Wiederholbarkeit von sprachlichen Zeichen) . Только в случае повтора, т.е. в случае рекурренции, речь может идти о текстовом референте. Текстовые референты представлены предметами и явлениями, в той или иной форме повторяющимися в тексте.

Связность научно-популярного текста на лексическом уровне может достигаться и посредством синонимов как слов, обозначающих одно и то же понятие. Все синонимы тождественны или близки по значению, например: 1. Halles Wissenschaftler machen Osteoporo-se-Patienten Hoffnung: 2. Im Kernresonanz-Zentrum des Instituts fur Physik der Uni Halle untersu-chen derzeit Biophysiker die Struktur eines Proteins, das im menschlichen Blut den Kalziumspiegel reguliert und so fur den Knochenaufbau wichtig ist. 3. Damit glauben die Physiker den entscheiden-den Puzzlestein zu finden, mit dem es moglich ist, ein Medikament gegen die Knochenkrankheit zu entwickeln. . Синонимы оформляют преимущественно левостороннюю (анафорическую) связь, т.е. отсылают к предыдущему контексту.

Синонимы выполняют в тексте многообразные функции. Так, например, они могут использоваться для уточнения мысли. Синонимы выполняют функцию сопоставления понятий, при этом подчеркиваются различия в их семантике. Они используются и для противопоставления понятий, что резко выделяет их различие. В этом случае особенно сильно под-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

черкивается второй синоним. В качестве одной из важнейших функций синонимов рассматривается и функция замещения, позволяющая избегать повторения слов.

Синонимы используются также для построения особой стилистической фигуры — градации, представляющей собой сочетание, нанизывание синонимов, когда каждый последующий синоним усиливает значение предшествующего. Такое употребление синонимов служит для характеристики разных оттенков явления, для передачи интенсивности действия, разнообразия его проявления .

Что касается терминологической синонимии, то некоторые исследователи называют пять причин ее возникновения: 1) формирование терминосистемы — синонимия наиболее характерна для начальных этапов формирования терминосистем, когда еще не произошел естественный или сознательный отбор подходящего термина; 2) одновременное использование краткой и полной формы термина; 3) употребление фамильных терминов и их вариантов; 4) сосуществование термина и его аббревиации; 5) сосуществование современного и устаревшего термина.

Созданию лексической связности способствуют и антонимы, которые определяются в лингвистике как слова с противоположным значением. Г. Я. Солганик замечает, что у слов-антонимов речь идет не о назывании каких-то предметов и явлений, противоположных по своей природе, а о предметах и явлениях одного рода, так что с точки зрения предметной отнесенности такие слова обнаруживают определенную близость, располагаясь в одной семантической сфере. Антонимические отношения относятся к числу характерных отношений в терминосистемах. Антонимия свойственна терминологической лексике в большей степени, чем общелитературной лексике. Это объясняется условиями формирования научных понятий, которые чаще всего возникают парами, ср.: Betrachtet man den Atom-kern genau, stellt man zwei unterschiedliche Kernbausteine fest: Protonen und Neutronen .

Антонимы могут выполнять в тексте несколько функций. Основная стилистическая функция антонимов заключается в том, что они рассматриваются как лексическое средство для построения антитезы. Противоположен антитезе прием, который заключается в употреблении антонимов с отрицанием. Он используется для того, чтобы подчеркнуть в описываемом предмете отсутствие четко выраженного качества. Антонимия лежит в основе оксюморона — стилистической фигуры, которая создает новое понятие соединением контрастных по значению слов. Обычно используется для обозначения исключающих друг друга, но взаимосвязанных признаков одного и того же предмета. Антонимы используются не только для создания контраста, но и часто для подчеркивания полноты охвата изображаемого; с этой целью применяется нанизывание антонимических пар. Особый стилистический прием (стилистическая фигура анафразис) — использование одного из антонимов, в то время как по смыслу следовало употребить другой .

Между терминами в научно-популярном тексте могут наблюдаться и гиперо-гипонимические отношения, например: 1. Ein anderes und zugleich das alteste Anreiche-rungsverfahren, das insbesondere in den USA, Frankreich und Ruftland eingesetzt wird, ist das Diffusionsverfahren. 2. Diese Methode ist jedoch bei weitem nicht so wirtschaftlich wie bei-spielsweise die Ultrazentrifuge. 3. Daneben gibt es noch das sog. Trenndusenverfahren, das in der Bundesrepublik Deutschland entwickelt wurde. 4. Aufterdem sind weitere Verfahren, z. B. die U-235-Anreicherung mit Hilfe von Lasern, in Erprobung . В приведенном фрагменте текста когезия достигается при помощи гиперонима (4) das Verfahren и гипонимов (1) das

Diffusionsverfahren, (2) die Ultrazentrifuge, (3) das Trenndusenverfahren и (4) die U-235-Anreicherung. При этом гипероним может обладать как правосторонней, так и левосторонней направленностью. Актуализации связности в данном отрывке текста способствуют и синонимы die Methode и das Verfahren.

В научно-популярном тексте термины-существительные могут сопровождаться терминами-прилагательными. При этом прилагательные характеризуются не как самостоятельные термины, а лишь как части составных терминов, терминоэлементы, поскольку они являются не доминантами составных терминов, а уточнителями доминант , ср.: Der Or-ganismus unterscheidet nicht, ob die Bestrahlung von kunstlich erzeugten oder naturlichen Atomen herruhrt. Kunstliche und naturliche Radioaktivitat wirken gleich . В данных примерах связность организуют термины-прилагательные kunstlich и naturlich, характеризующие существительное Radioaktivitat.

Безусловно, в создании связности научно-популярного текста существенную роль играют тематически близкие термины. Термин можно считать тематическим, если у него обнаруживается наличие семантической связи с одним термином или более в последующих высказываниях. Число сем в системе языка, т.е. тех элементарных значений, из которых складываются лексические значения слов, ограничено, и они подчиняются определенной иерархии. Повторяясь в тексте, семы составляют его тематическую сетку , например: 1. Um einen Uran-Atomkern kreisen 92 Elektronen, wahrend die Hulle eines Sauerstoff-Atomkerns aus 8 Elektronen gebildet wird. 2. Betrachtet man den Atomkern genau, stellt man zwei unter-schiedliche Kernbausteine fest: Protonen und Neutronen. 3. In einem Uran-235-Atomkern sind von den 235 Uran-Kernbausteinen 92 Protonen; der Rest, 143, sind Neutronen. 4. Ein Sauerstoff-Atomkern ist hingegen aus 8 Protonen und 8 Neutronen zusammengebaut . Тема приведенного отрывка текста о строении атомного ядра поддерживается при помощи терминов der Atomkern, die Hulle eines Atomkerns, das Elektron, das Proton, das Neutron. Посредством тематически связанных терминов устанавливаются смысловые связи между высказываниями текста.

Проведенный нами анализ научно-популярного текста показывает, что использование терминологической лексики в текстах названной дискурсивной принадлежности имеет свои особенности. В построении данного вида текста задействованы в основном общеупотребительные термины, поскольку он должен отличаться прежде всего доступностью изложения. Созданию связности научно-популярного текста на лексическом уровне способствуют синонимы, антонимы, гипонимы, гиперонимы, относящиеся в большей степени к терминологической лексике. Для актуализации связности широко используются также различные виды повторов терминов и тематически связанные термины.

ЛИТЕРАТУРА

1. Солганик Г. Я. Практическая стилистика русского языка. 3-е изд. М.: Академия, 2008. 304 с.

2. Головин В. Н., Кобрин Р. Ю. Лингвистические основы учения о терминах. М.: Наука, 1987. С. 40.

3. Кожина М. Н., Дускаева Л. Р., Салимовский В. А. Стилистика русского языка. 2-е изд. М.: Флинта: Наука, 2010. 464 с.

4. Буре Н. А., Быстрых М. В., Вишнякова С. А. . Основы научной речи. СПбГУ: ИЦ «Академия», 2003. 272 с.

6. Крылова О. А. Лингвистическая стилистика. Теория. Т.1. М.: Высшая школа, 2006. 319 с.

9. Buftmann H. Lexikon der Sprachwissenschaft. Stuttgart: Kroner, 2002. 904 S.

10. Eroms H.-W. Stil undStilistik. Berlin: Erich Schmidt, 2008. 255 S. (Grundlagen der Germanistik — 45)

11. Kernenergie. Klar und verstandlich. Bonn: Informationskreis Kernenergie, 2010. 42 S.

12. Болотнова Н. С. Филологический анализ текста. М.: Флинта; Наука, 2009. C. 520.

14. Unimagazin. Scientia halensis. № 2. 2010. 42 S.

15. Арнольд И. В. Стилистика современного английского языка (стилистика декодирования). М.: Просвещение, 1990. 301 с.

Поступила в редакцию 27.11.2012 г.

ROLE OF TERMS IN POPULAR SCIENCE TEXT

© F. U. Zhabbarova

Bashkir State University 32 Zaki Validi Street, 450076, Ufa, Russia.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

E-mail: firuza08@yandex.ru

Keywords: popular science text, lexical means, terms, cohesion, coherence, nominative chains, literal reiteration.

Published in Russian. Do not hesitate to contact us at edit@libartrus.com if you need translation of the article.

5. Bel’chikov Yu. A. Stilistika i literaturnoe redaktirovanie. 3-izd., pererab i dop. Moscow: Gardariki, 2007. 168 s.

7. Tayupova O. I. Sverkhfra-zovye edinstva v obuchenii inostrannymyazykam. Ufa: BGU, 1987. Pp. 145-149.

8. Tayupova O. I., Zhabbarova F. U. Vestnik Chelyabinskogo gosudarstvennogo universiteta. 2012. Vypusk 65. No.

13. Pp. 116-122.

9. Buftmann H. Lexikon der Sprachwissenschaft. Stuttgart: Kroner, 2002. 904 S.

10. Eroms H.-W. Stil undStilistik. Berlin: Erich Schmidt, 2008. 255 S.

11. Kernenergie. Klar und verstandlich. Bonn: Informationskreis Kernenergie, 2010. 42 S.

12. Bolotnova N. S. Filologicheskii analiz teksta. Moscow: Flinta, 2009. Pp. 520.

Коллеги, привет!

Продолжая тему понятных договоров и юридического дизайна, хочу поделиться наблюдениями про раздел «термины и определения».

История из жизни. Скидывают договор, открываю его и вижу 20 терминов. Понимаю, что сейчас нужно будет прочитать каждый их них, вникнуть в его смысл, запомнить — и мне становится грустно. Я уже подозреваю, что в дальнейшем мне эти знания не понадобятся. Все дело в том, что составитель договора немного перестарался и включил в раздел слишком много информации.

Но есть и хорошая новость, можно это исправить в своих договорах.

Я последовательно задаю себе следующие вопросы:

1. Нужна ли расшифровка этого термина?

Например, термин «интернет». Зачем копировать определение из википедии на полстраницы, если значение этого термина понятно уже всем?

Или вот еще замечательный пример:

«1.4. Лицензионный договор – гражданско-правовой договор, по которому одна сторона – обладатель исключительного права на интеллектуальную собственность (лицензиар) – предоставляет или обязуется предоставить другой стороне (лицензиату) право использования этой интеллектуальной собственности (неисключительное право) в предусмотренных лицензионным договором пределах (п. 1 ст. 1235 ГК РФ). Заключение лицензионного договора не влечет за собой переход исключительного права к лицензиату (п. 1 ст. 1233 ГК РФ)».

Ну зачем, зачем это нужно расшифровывать?

2. Сколько раз встречается термин в договоре?

Если термин упоминается всего один раз, возможно будет проще расшифровать его значение в самом тексте.

Случаются и более интересные истории. Термин вообще в договоре не упоминается.

Один из клиентов заказал договор на разработку сайта. Ему прислали договор, в котором был солидный раздел с терминами, в том числе такими как «контекстная реклама», «сео продвижение», «яндекс директ», «целевые переходы» и т. д.

Зачем это все в договоре на создание сайта? Возможно Вы возразите и скажете, что потом клиенту понадобится продвижение. Вот когда понадобится — тогда стороны и подпишут дополнительный документ (договор/приложение/дополнительное соглашение), в котором среди прочего будут актуальные для этих отношений термины.

3. А нужен ли раздел?

Проверив все термины по двум вышеуказанным критериям Вы возможно зададите себе вопрос — а нужен ли вообще раздел «термины и определения»?

Я для себя решил так. Если терминов не больше 5, их проще расшифровать по тексту договора.

Если терминов больше 5, то лучше создать под них отдельный раздел.

4. Не слишком ли большое определение?

Допустим раздел решили оставить, так как терминов много. Мы убрали ненужные, очевидные или однократно встречающиеся термины, но все равно получается громоздко. Что еще можно с этим сделать?

Проверить, не слишком ли много написано в расшифровке термина.

Давайте посмотрим пример:

Личный кабинет — персональный раздел пользователя на сайте, где он может посмотреть свою статистику работы. Доступ к личному кабинету происходит с помощью логина и пароля, которые пользователь получает при регистрации. Пользователь несет ответственность за все действия, совершаемые в личном кабинете.

Составитель документа явно перестарался. 2/3 текста должны быть не в определении, а в профильном разделе договора о правилах регистрации.

В итоге получится:

Личный кабинет-персональный раздел пользователя на сайте, где он может посмотреть свою статистику работы.

Или

Личный кабинет-персональный раздел пользователя на сайте.

5. Все ли хорошо со структурой раздела?

В большинстве договоров термины расположены как Бог на душу положит.

Кто-то сортирует термины в алфавитном порядке, но тогда раздел приходится использовать так:

— Встречаем в тексте термин.

— Идем читать его в раздел «термины и определения».

— Возвращаемся обратно к тексту договора.

Это не всегда удобно. Есть альтернативный вариант. Можно постараться расположить термины так, чтобы они складывались в рассказ, постепенно раскрывая смысл.

Давайте посмотрим на примере.

АЛФАВИТНЫЙ ПОРЯДОК

Авторизация- вход в Аккаунт с помощью Ключей доступа.

Аккаунт- учетная запись Посетителя на Сайте.

Ключи доступа- логин и пароль для доступа к Аккаунту.

Посетитель – лицо, использующее Сайт любым способом.

Сайт — сайт администратора runetlex.ru

ЛОГИЧЕСКИЙ ПОРЯДОК

Сайт — сайт администратора runetlex.ru

Посетитель – лицо, использующее Сайт любым способом.

Аккаунт- учетная запись Посетителя на Сайте.

Ключи доступа- логин и пароль для доступа к Аккаунту.

Авторизация- вход в Аккаунт с помощью Ключей доступа.

Основная особенность в том, что термины раскрываются поочередно. Обратите внимание на термин «Аккаунт». В случае с алфавитным порядком, Вам не сразу станет понятен смысл термина. Нужно будет прочитать еще про сайт и посетителя, но эти термины находятся ниже.

В случае с логическим порядком иначе. Изучая термин «Аккаунт», вы уже знаете смысл используемых в нем терминов.

Такой способ расположения определений занимает больше времени у юриста, но и более удобен для читателя.

На сегодня все. Мои наблюдения в видеоформате можно посмотреть здесь https://www.youtube.com/watch?v=gYEl8Ei_oAs&t=1s

Буду рад прочитать ваше мнение, предложения, замечания.

  • Авторы
  • Резюме
  • Файлы
  • Ключевые слова
  • Литература

Белая Т.И. 1 Пасечник П.А. 1 1 Санкт-Петербургский государственный университет технологии и дизайна, Северо-западный институт печати Проведен анализ проблемы компьютерной обработки русскоязычного текста, нацеленной на выделение ключевых понятий в текстовом содержимом. В качестве объекта рассмотрения выбраны термины, вводимые в текст впервые, а также сопровождающие их определения. Рассмотрены исключительно статистические средства выделения понятий, выделены преимущества над словарными методами. Имеется направленность работы на автоматическое реферирования. Выделены четыре ключевых этапа для решения проблемы, в которых использованы шаблонные конструкции, анализ слов и комбинаций, статистика встречаемости слов в тексте. Выделены формулы для получения вероятностных характеристик терминов и предложений их определяющих. Сформирован алгоритм проведения анализа текста, приведены рекомендации по использованию данного алгоритма в разработке программных средств. 227 KB автоматизированная обработка текста выделение понятий реферирование 1. Абрамов В.Е. Автоматическое рубрицирование и реферирование текстовой информации (в том числе на иностранных языках) : автореф. дис. на соиск. учен. степ. канд. техн. наук. – М., 2008. – 27 с. 2. Горошкин А.Н., Обработка и распознавание рукописного текста в системах электронного документооборота : автореф. дис. на соиск. учен. степ. канд. техн. наук. – Красноярск, 2008. – 21 с. 3. Крищенко В.А., Программное обеспечение для метапоиска информации в гипертекстовой среде : автореф.дис. на соиск. учен. степ. . канд. техн. наук. – М., 2002. – 16 с. 4. Вишняков Р. Ю. Разработка и исследование формализованных представлений и семантических схем предложений текстов научно-технического стиля для повышения эффективности информационного поиска : автореф. дис. на соиск. учен. степ. канд. техн. наук. – Таганрог, 2012. – 18 с. 5. Суркова А.С. Разработка структурно-статистических методов и алгоритмов идентификации текста : автореф. дис. на соиск. учен. степ. канд. техн. наук спец. – Н. Новгород, 2004. – 19 c. 6. Кадомцев В.И. Распознавание коммуникативной функции составляющих текста (письменной речи) : автореф. дис. на соиск. учен. степени канд. психол. наук. – М., 1975. – 25 с.; 7. Файн В.С., Распознавание образов и машинное понимание естественного языка /Отв. ред. И.Т. Турбович; АН СССР, Ин-т пробл. передачи информ. – М.: Наука, 1987. – 172 с. 8. Шоломов Д.Л. Синтаксические методы контекстной обработки в задачах распознавания текста : дис. на соиск. учен. степ. канд. техн. наук. – М., 2007. – 24 с.

Введение

В данной работе рассмотрена проблема компьютерной обработки текста на русском языке. Основной задачей данной работы является автоматизированное формирование массива терминов, опираясь на статистические характеристики текстового содержимого и его ключевых единиц, без использования словарных методов обработки текста, за исключением использования словаря шаблонных конструкций и комбинаций слов, сопровождающих определения.

Полученные данные позволяет решить широкий круг проблем, связанных с анализом текстового содержимого, среди них могут быть выделены:

  • формирование автоматизированных систем тестирования;
  • оценка научного или образовательного материала, на предмет охвата существующих понятий;
  • перевод русскоязычного текста;
  • автоматизированная коррекция пунктуационных и смысловых ошибок в русскоязычном тексте;
  • оптимизация алгоритмов поисковых систем ;
  • проблема распознавания смысла естественного языка компьютерным оборудованием, как подраздел теории искусственного интеллекта.

Предоставленные данные ориентированы на обработку с помощью императивного процедурного языка программирования, но допускает использования логической и функциональной парадигм программирования.

Актуальность проблемы и существующие методы

Актуальной проблемой анализа текстового содержимого является выделение ключевых понятий. Под ключевыми понятиями понимается наиболее значимые термины рассматриваемого текста, которые отражают его основной смысл . Они формируют общее смысловое содержание, позволяя проанализировать глубину рассмотрения предметной области, а также в автоматическом режиме отнести рассматриваемый текст к определенной предметной области.

Существующие методы обработки текста ориентированы в большей мере на выявление закономерностей между отдельными токенами (словами или словосочетаниями составляющими одну смысловую единицу предложения), а также опираются исключительно на словарный анализ. Словарный анализ требует наличия максимально полных баз данных, содержащих слова, а также их взаимосвязи и свойства. Также метод является высоко требовательным к ресурсам, как хранения, так и пополнения и обработки. Метод ограничен представленными базами данных и имеет свойства, которые напрямую зависит от ее полноты. В данном случае появление нового термина, может быть обработано неверно, поскольку он не присутствует в словаре.

Рассматриваемая задача сходна с задачей реферирования , которое подразумевает автоматическое формирование аннотации или реферата к представленному текстовому содержимому. Задача имеет более узкую направленность, не требует формирования связного текста из полученных данных, что является основным отличием от реферирования. Также реферирование является избыточным по отношению к представленной задаче.

Ключевые понятия текста имеют широкую область применения, как в области анализа текста, так и в области его автоматической обработки, перевода, а также автоматической проверки на смысловые ошибки . Понятия, предоставленные в тексте, могут быть как общеиспользуемые, так и новые, вводимые в рамках рассматриваемого текста. По этой причине процесс анализа наиболее целесообразно разделить на две отдельно выполняемые задачи: анализ текста на предмет общеиспользуемых терминов и анализ текста на предмет терминов, вводимых и определяемых в рассматриваемом тексте, которые, как правило, предоставляют собой ключевые понятия. Обе задачи кардинально различаются по степени сложности. Поиск вводимых терминов также во многих случаях может быть не реализован словарными методами, поскольку термин в тексте может вводиться впервые или может быть новым и отсутствовать в словаре.

Анализ текстового содержимого на предмет вводимых терминов

Рассмотрим анализ текста на предмет терминов, вводимых в рамках рассматриваемого текста. Для выделения терминов может быть использована следующая последовательность:

  • анализ пунктограмм, используемых в рассматриваемом тексте, а также использование шаблонных конструкций, сопровождающих определения нового термина;
  • обработка текста на предмет слов и комбинаций, сопровождающих определения нового термина;
  • сбор статистики встречаемости слов в тексте с отсеиванием заведомо не являющихся терминами, по полученным статистическим данным.

Анализ пунктограмм , а также комбинаций пунктограмм и слов, называемых шаблонными конструкциями, позволяют выделить термины, явно определяемые в тексте, а также является вспомогательным средством на этапе анализа частоты встречаемости, позволяя выявлять сложные предложения и анализировать их как отдельную единицу. При обработке языком программирования, данный этап не требует использование статистических методов, он построен исключительно на использовании теоретических сведений и позволяет достичь высокой степени точности. Этап требует наличия базы шаблонных конструкций, полнота которой напрямую влияет на точность полученных данных. Начальные данные базы формируются вручную, а впоследствии пополняется автоматизировано при взаимодействии с пользователем.

Для решения проблем, не затронутых на предыдущем этапе, производится словарная обработка текста, которая также требует использования теории, но дополняется использованием статистики расположения слов и их комбинаций, отсеиваемых на основе грамматических правил. На данном этапе собирается максимально полная база слов и комбинаций слов, сопровождающих определение новых терминов. Из полученной базы выбирается набор слов и комбинаций, имеющих наибольшую вероятность наличия определения при использовании. Затем производится поиск элементов набора в тексте, что позволяет сузить круг поиска. Таким образом, для каждого элемента набора формируется массив предложений, которые могут содержать определения терминов с определенной вероятностью Pу, которая является вероятностью события, согласно которому рассматриваемый элемент набора слов или комбинаций указывает на наличие определения в данном предложении.

Поскольку вводимые определения, согласно существующим требованиям к оформлению научного текста, как правило, присутствуют в начале текстового содержимого, порядковый номер предложения в тексте также играет весомую роль. По этой причине вводится порядковый коэффициент K, который рассчитывается как отношение порядкового номера предложения к числу всех предложений в тексте согласно формуле 1, где i – номер рассматриваемого предложения, а N – это число всех предложений в тексте.

(1)

Используя формулу 2, рассчитаем вероятность наличия определения нового термина в рассматриваемом предложении.

(2)

По полученной вероятности производится сортировка предложений.

Производится сбор статистики встречаемости слов в тексте, то есть производится занесение всех слов текста в один двумерный массив, который содержит анализируемое слово, а также Nпоявл. – количество его появлений. Полученный массив обрабатывается на предмет союзов, предлогов и местоимений, которые затем исключаются. Следующей задачей является поиск элементов массива слов в элементах массива предложений в порядке убывания встречаемости. К каждому слову формируется массив предложений, в которых может быть определено данное слово. Количество появлений слова, а также содержащих его предложений, являются параметрами, определяющими вероятность того, что рассматриваемое слово является термином, поэтому примем ее согласно формуле 3.

(3)

Производится группировка синонимичных понятий, в результате чего вероятности Pт, группируемых понятий, пересчитывается, а также производится исключение понятий, несущих вспомогательный характер. Затем слова и предложения рассматриваются попарно, в случае если слову соответствует более одного предложения, оно рассматривается с каждым по отдельности, иначе выносится в отдельный массив, а также считается потенциальным определением. Каждой паре формируется вероятность потенциального определения, согласно формуле 4.

(4)

Используя вероятность потенциального определения, выделяются наиболее вероятные пары, которые далее обрабатываются человеком. На данном этапе целесообразно введение автоматизированного средства, обработки результатов. Предложения, одобренные и не принятые пользователями, заносятся в банк знаний, который в дальнейшем обрабатывает их с целью выявления шаблона, который может быть использован на первом этапе. В случае если одно из предложений, соответствующее полученному шаблону, является не принятым, шаблон в данном случае должен быть переработан или исключен из рассмотрения.

При использовании данного алгоритма, также целесообразным является повтор аналогичных действий как внутри подразделов, так и во всем тексте в целом, а затем сравнение полученных результатов, что позволяет повысить их достоверность.

Визуальное представление данного алгоритма в виде блок-схемы предоставлено на рисунке 1. Его использование в большей степени ориентировано на автоматизацию формирования исходного материала для тестирования знаний обучаемого по существующему материалу преподавателя. При использовании методов автоматизации процесса реферирования, с целью автоматизации формирования тестов, возникают общепринятые понятия рассматриваемой области знаний, что является избыточным.

Использование словарных методов также является нецелесообразным, поскольку они не являются достаточными ввиду разнородности используемых терминов, которые зависят от преподаваемой дисциплины, а также имеют низкое быстродействие. В рассматриваемом методе решаются данные недостатки за счет вероятностного характера алгоритма и исключения общепринятых понятий из рассмотрения.


В программном изделии для автоматизации формирования тестов взаимодействие с пользователем, при использовании данного алгоритма, является необходимым, поскольку в выходных данных алгоритма могут присутствовать ложные элементы, которые должны быть исключены. При одобрении элементов пользователем, они подвергаются обработке, с целью выявления шаблонных конструкций и слов-указателей, которые могут быть использованы при повторном использовании приложения, что позволяет оптимизировать последующие результаты. Наличие данного взаимодействия позволяет решить следующие проблемы:

  • недостаточность базы шаблонных конструкций, а также неточность некоторых шаблонных конструкций, которая приводит к появлению ложных элементов и отсутствию истинных;
  • недостаточность базы слов и их комбинаций, которые сопровождают определения;
  • выявление дополнительных вероятностных взаимосвязей, позволяющих повысить точность обработки.

Алгоритм может быть реализован с использованием языка высокого уровня, имеющего функции или библиотеки обработки текста. Также при его использовании достигается более высокая производительность по отношению к словарным методам.

Заключение

В данной работе ключевые понятия рассматриваются как отдельный класс распознаваемых элементов текста, написанного на естественном языке. Данная работа имеет большую направленность к области реферативной обработки текста, которая заключается в выявлении набора ключевых высказываний, описывающих содержимое текста. Большинство методов, используемых для реферирования, опираются на словарные методы, которые требуют наличия словарей, имеющих набор существующих терминов. Предложенный метод имеет исключительно вероятностный характер.

Рецензенты:

Колбанев М.О., д.т.н., профессор СПбГУСЭ, кафедра «Прикладные информационные технологии», г. Санкт-Петербург.

Татарникова Т.М., д.т.н., доцент, профессор, Институт информационных систем и защиты информации СПбГУАП, г. Санкт-Петербург.

Библиографическая ссылка

Белая Т.И., Пасечник П.А. ВЫДЕЛЕНИЕ КЛЮЧЕВЫХ ПОНЯТИЙ В ТЕКСТОВОМ СОДЕРЖИМОМ С ИСПОЛЬЗОВАНИЕМ СТАТИСТИЧЕСКОЙ ОЦЕНКИ // Современные проблемы науки и образования. – 2014. – № 3.;
URL: http://www.science-education.ru/ru/article/view?id=13485 (дата обращения: 26.09.2020).Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания» (Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления) «Современные проблемы науки и образования» список ВАК ИФ РИНЦ = 0.791 «Фундаментальные исследования» список ВАК ИФ РИНЦ = 1.074 «Современные наукоемкие технологии» список ВАК ИФ РИНЦ = 0.909 «Успехи современного естествознания» список ВАК ИФ РИНЦ = 0.736 «Международный журнал прикладных и фундаментальных исследований» ИФ РИНЦ = 0.570 «Международный журнал экспериментального образования» ИФ РИНЦ = 0.431 «Научное Обозрение. Биологические Науки» ИФ РИНЦ = 0.303 «Научное Обозрение. Медицинские Науки» ИФ РИНЦ = 0.380 «Научное Обозрение. Экономические Науки» ИФ РИНЦ = 0.600 «Научное Обозрение. Педагогические Науки» ИФ РИНЦ = 0.308 «European journal of natural history» ИФ РИНЦ = 1.369 Издание научной и учебно-методической литературы ISBN РИНЦ DOI

Записи созданы 8132

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Похожие записи

Начните вводить, то что вы ищите выше и нажмите кнопку Enter для поиска. Нажмите кнопку ESC для отмены.

Вернуться наверх