textour
zusammenfassung
eine neue interaktive form der visualisierung
von texten zur statistischen textanalyse
jeder text ist ein komplexes system aus wörtern, deren länge, stellung und frequenz keinesfalls zufällig auftritt, sondern nach bestimmten sprachwissenschaftlichen regeln und mustern erfolgt. dieses programm zur statistischen textanalyse ermöglicht es einige dieser muster grafisch darzustellen um sich somit dem inhaltlichen aufbau eines textes zu nähern. diese generierte, radikal neue darstellungsweise eines textes macht metainformationen sichtbar die durch das konventionelle erscheinungsbild verborgen bleiben und hilft somit den inhalt eines textes und dessen aufbau schneller zu erfassen.
bei dieser arbeit handelt es sich um die diplomarbeit im studiengang kommunikationsdesign an der fh|w-s von oktober 2006 bis februar 2007 (9. semester). die prüfer und betreuer dieser arbeit waren prof. erich schöls und prof. dr. gerhard schweppenhäuser.
.
.
.
.
abstract
Get the Flash Player to see this player.
The application “textour” is an interactive tool, which enables the user to analyze a text via statistics and visualizes the result in a new and neat way.
I got inspired to develop this application as my diploma project because the digitalisation of media and the internet make many texts on the internet easily accessible to everyone; written literature on the other hand is mostly not accessible on the internet. As a consequence, there is a need to access this information via the same digital tools like for example search machines and links. I therefore dealt with the big market of text mining; as an information designer I wanted to think about the appearence of a text in general and a new way to visualize a text for different purposes.
Due to the fact that every text is more or less carefully articulated, speeches but also narrative texts and law texts make language in general a very complex subject which is difficult to analyze properly. Nevertheless, it is possible to discover certain rules which show that every text is a system of words where length, position and frequency of words do not appear at random. Quantitive linguistics researchers are looking for connections between the length, frequency and position of words in a text. I thus integrated some basic filters (text restriction, sentence restriction, word restriction, sentence length, word length, word frequency) to discover key words and text patterns and to analyze a text. The decisive advantage of these basic filters is that they function automatically and that the characteristics of a text can, most of the time, be transferred to other languages.

The most interesting part was to design the best method to show all the results of the filters. Here I got inspired by Mark Lombardi’s work “Narrative Structures”. First of all I split the text into the different sentences, words and letters and then I re-connected them to the corresponding lines. After that I arranged the different text elements, letters, words and sentences on three different circles around a common center. The three circles which you can see in the screenshot represent thus (from the center to the outer rim): The text (dot in the middle), the sentences, the words and the letters (not visible in the screenshots). On these three circles every spot represents an entity connected to the parent group it belongs to and all the spots are equally balanced on their circles. Every time a letter, word or sentence is entered into the program, the visualisation integrates the new item and the elements appear on the right point of intersection of line through the center and the circles and re-arranges the rest of the elements in a clockwise manner. The different colours in the visualization represent every single word and are attributed to the word the first time the word appears, they also show when a word appeared for the first time and how often it was found in the whole text.



I used the speech of George Bush announcing the war against Iraq in 1991 because it is a short and impressive example of how the words “people”, “listen”, “forces” and “Saddam” are used. This also shows a possible purpose of the application, which is to analyze the writing styles of different authors. Furthermore, with some additional adjustments, another application could be some sort of automatic table of contents, maybe even embedded in a tag cloud; this would allow a quick glimpse at the general topics of a text and how frequently and in what section of the text the different key words appear. The most important reason for me as an artist and as a designer was to demonstrate how beautiful a functional information visualization can be that processes and visualizes information.
.
.
.
.
anwendung
diese anwendung wurde mit processing programmiert und ist bisher nur für das betriebssystem os x verfügbar. die anwendung setzt eine bildschirmauflösung von 1280 x 720 pixeln vorraus.
installation:
1. laden sie die datei textour.dmg herunter
2. öffnen sie das image und verschieben sie das programm textour.app in den programmordner
3. doppelklicken sie die datei textour.app um die anwendung zu starten
eine ausführliche bedienungsanleitung sowie eine erklärung über funktionsweise der anwendung, finden sie in der dokumentation.
.
.
.
.
beispiele
Get the Flash Player to see this player.
die oben angeführte demonstration zeig im zeitraffer die funktionsweise und darstellungsmöglichkeiten der anwendung. durch dieses video soll die effizenz des programms, die hauptsächlich in seiner interaktivität liegt, gezeigt werden. neben dem aufbau des modells, durch die eingabe des textes, sieht man wie die darstellung in echtzeit abgeändert werden kann. durch den weitern einsatz der filter entstehen somit übersichtliche grafiken die einzelne, exzerpierte wörter, in ihrem verlauf innerhalb des textes anzeigen. die laufzeit der demonstration beträgt 1 minute und 13 sekunden.

dieses beispiel zeigt die grunddarstellung des modells mit eingeschalteter wortfrequenzanzeige. durch diese darstellung kann die häufigkeit einzelner wörter, über die unterbrechungen im farbkreis, welcher über dem modell liegt, abgelesen werden. dabei wird jedem wort ein individueller farbton vergeben der bei erneuten auftretten wieder verwendet wird und somit im kreis hervorsticht. durch diese darstellung können einzelne wiederkehrende wörter aber auch passagen erkannt werden.

das obere beispiel zeigt den auf das grundmodell angewendete beschnitt, bzw. die wort- und satzlängen- sowie häufigkeitsfilter. diese kernfunktion der anwendung dient zur auslese von wörtern und sätzen mit einer bestimmten länge oder bestimmter häufigkeit. durch den einzatz dieser filter können aus dem text gezielt bestimmte wörter gefiltert werden. in diesem beispiel werden somit in der abbildung alle sätze mit einer längen von 12 bis 130 wörtern sowie alle wörter mit 2 bis 30 buchstaben angezeigt.

dieses beispiel zeigt ebenfalls wie die vorangegangenen abbildungen die kriegerklärung von george bush gegenüber dem irak, aus dem jahre 1991. durch den einsatz der zuvor erklärten filter wurden hier die beiden wörter “people” und “listen” exzerpiert (oder besser gesagt alle wörter die mit eine häufigkeit von 0,33% vorkommen und aus sechs buchstaben bestehen). besonders interessant an dem wort “listen” ist dabei die verstärkte verwendung am ende des textes. dies läßt auf einer art appelativen teil am ende der rede vermuten.

verändert man die filter nun so dass man das wort “forces” aus dem text einzelnd sieht, fällt einem besonders dessen starke häufung am ende des textes auf. auch hier läßt sich wieder vermuten dass dieses ausdrucksstarke wort in rythmischen abständen, das ende der rede einleiten und bestimmte reaktionen im zuhörer auslösen soll. ebenfalls ist auch hier auffällig, dass dieses wort besonders häufig doppelt vorkommt.

eine weitere interessante auffälligkeit in dieser rede ist, dass das wort “saddam”, logischerweise aufgrund der thematik, relativ häufig vorkommt. aus diesem grund ist dessen strategische verwendung in der rede von bedeutung. exzerpiert man dieses wort, dass mit einer relativ hohen häufigkeit von über 1% des textes vorkommt, so kann man erkennen dass es ausschließlich im ersten teil der rede vorkommt und dannach nicht wieder verwendet wird.
.
.
.
.
dokumentation
1. einleitung
bei dem vorliegenden text handelt es sich um die dokumentation meiner diplomarbeit die ich im wintersemester 2006 an der fh|w-s, im diplomstudiengang kommunikationsdesign, angefertigt habe. der selbstgewählte schwerpunkt dieses studium konzentrierte sich dabei auf die theoretische wie auch praktische auseinandersetzung mit dem thema „analytischem informationsdesign“. die diplomarbeit ist unter der fachlichen betreuung von prof. erich schöls und prof. dr. gerhard schweppenhäuser entstanden.
durch die diplomarbeit “textour” versuche ich die problematik der schwindenen zugänglichkeit und bedeutung von niedergeschriebenem informationen in unserer heutigen zeit zu thematisieren. die gefahr dass ein großteil unserer gegenwärtigen buchkultur ungenutzt bleibt und somit der alphanumerische kode an bedeutung verliert, hat seit einzug der abbildenden medien begonnen. dadurch stellt sich die frage in wie fern der zugang zu texten, bzw. die darstellung der informationen in büchern durch neue möglichkeiten der gestaltung verbessert werden kann. die thematik dieser vorliegenden arbeit ist somit die darstellung von texten mittels heutiger informationsgestaltung. wie läßt sich die anfallende flut an geschriebenen informationen unter zuhilfenahme visueller und interaktiver mittel besser strukturieren?
die praktische umsetzung dieser diplomarbeit konzentriert sich dabei auf die „übersetzung“ bestimmten textqualitäten in die visuellen qualitäten einer grafik. dieses aus einem text entstandene “bild”, das aus einem von mir entwickelten programm generiert wird, soll dann dem betrachter eine art überblick über den inhalt oder die merkmale eines textes verschaffen. es stellt somit ein werkzeug zur visuellen textanalyse dar, unter der annahme dass die wörter in einem text im bezug auf ihre länge, verortung und frequenz nach bestimmten, statistisch belegegbaren, mustern erfolgen.
aus diesem grund ist die selbstgestellte aufgabe dieser diplomarbeit, eine anwendung zu programmieren, die es dem benutzer ermöglicht, durch den einsatz von filtern, bestimmte informationen aus einem text herauszuarbeiten. der erwünschte erfolg wäre dann, durch die benutzung der anwendung, eine indikative textzusammenfassung erstellen zu können, die ein schnelleres antizipieren über den inhalt eines textes, also eine art quer- oder schnellesen ermöglicht. im gegensatz zur suchmaschine setzt diese form der begegnung keine konkrete suchanfrage vorraus sondern bietet einen überblick über noch unbekannte texte.
der umfang dieser diplomarbeit beinhaltet somit zunächst eine auseinandersetzung mit der bedeutung der schriftkultur, sowie den möglichkeiten der informationsextraktion. weiterhin wird die entwicklung der anwendung und auch ihre funktionsweise auf den folgenden seiten ausführlich erklärt.
2. die bedeutung der schrift
2. 1. die entwicklung der schriftkultur
schon seit den anfängen der menschheitsgeschichte malte der mensch bilder von sich und seiner umwelt. in diesen abbildungen verwendet er dabei oft szenisch angeordnete piktogramme die meistens konnotativ und undeutlich kodiert wurden. dieses erste festhalten der individuellen perspektive auf erlebte szenen kann als eine art hilfsmittel verstanden werden wodurch der mensch einzelne situationen besser rekonstruieren und verstehen konnte. durch diese verwendung von symbolen überbrückte der mensch nach vilém flusser den abgrund zwischen sich selbst und seiner welt und schuff dabei gleichzeitig eine kommunikation von längerer dauer. seine wahrnehmung entwickelte sich somit von den dingen zu den bildern der dinge. diese “geste des bildermachens” wird in der wissenschaft oftmals als “icon turn” bezeichnet.
dabei versteht flusser dieses bildermachen als eine art notwendigkeit sich gegenüber der welt durchzusetzen. sozusagen ein sprung aus der natur in die subjektivität, eine entfremdung des menschens gegenüber seiner welt. diese einzigartige fähigkeit, die den menschen in seiner wahrnehmung zu einem subjekt in einer objektiven welt macht steckt in der philosophischen bedeutung des wortes existenz, abgeleitet aus dem lateinischen wort „ek-sistere“, was soviel bedeutet wie „außerhalb stehen”.
diese bilder- und malschriften aus der frühen menschheitsgeschichte werden heute als die erste vorstufe unserer schrift bezeichnet. dabei bestand dieses werkzeug zur kommunikation anfänglich aus bildhaften szenen welche sich später zu geometrischen mustern vereinfachten. den antrieb zu dieser entwicklung vermutet otl aicher in der erschöpfung der ausdrucksmöglichkeiten des anfänglichen piktogramms. somit musste an die stelle eines deutbaren konnotativen kodes, ein eindeutig lesbarer, denotativer kode folgen.
weiterhin vermutet man dass durch die veränderung der agrarwirtschaft in der jungsteinzeit das bedürfnis entstand szenen eindeutig kommentieren zu können. neue arbeitsteilige wirtschaftsformen wie viehzucht und handwerk in denen tiere domestiziert wurden und der menschen pflanzen anbaute schufen neue bedürfnisse nach planung, einteilung, registratur und verwaltung.
dies erforderte somit eine neue intersubjektive kommunikationsform die ab einer bestimmten komplexität möglichst genau sein sollte. dadurch entstand eine sogenannte alphabetische elite aus händlern und kaufleuten die lagerlisten, waren, ladelisten, abrechnungen und kalkulationen von maßen und gewichten führen musste. die erfindung der alphabe-tischen schrift, also die kulturelle vereinbarung zwischen zeichen und sinn, welche nun gelesen und nicht mehr gedeutet wird, war somit nach frank hartmann eine kritik an der vermittlungsleistung des bildes und dadurch der nächste schritt in der entwicklung der schrift. der mensch verließ also die welt der bilder und findet durch texte zu einem neuen standpunkt des bewußtseins.
2. 2. die vorherrschaft der schrift
noch in der zeit als händler und kaufleute sich des alphabetischen kodes bedienten, merkten schreiber und autoren dass sich durch die verwendung des kodes auch gedanken und wünsche ausdrücken ließen. nicht nur szenen konnten beschrieben, sondern ganze geschichten erzählt werden. so kommt es dass die technik des erzählens heute zu einer der wichtigsten methoden zur informationsvermittlung entwickelt hat. die narratologie bzw. die erzählforschung setzt sich mit dieser thematik auseinander und untersucht dabei narrative texte auf dessen bedeutung, funktion und aufbau. sie sieht die narration als ein werkzeug zur selbsterfindung der kultur und ihre subjekte als einer art manufaktur der menschlichen identität.
in narrativen erzeugnissen werden somit erfahrungen in komplex ausgeführten handlungen und werken zugänglich gemacht. somit ist die gesamtheit der erzählungen heutzutage zu einem kollektiven speicher an wissen und erfahrung heran gewachsen was unter anderem den text zu einem der wichtigsten quellen des kulturellen gedächstnisses macht. ein großteil des menschlichen wissens liegt somit in schriflicher form vor. text repräsentiert also wissen und bildung.
texte und schrift dienen in unserem kulturkreis also dazu wissen festzuhalten, zu bearbeiten und weiterzugeben. sie sind somit allgemein die grundlage der wissensverarbeitung. der buchdruck mit seiner mechanisierung repetativer prozesse innerhalb der schriftkultur, übernimmt dabei unter anderem, damals mehr als heute, die distribution von wissen. die bedeutung des alphanumerischen kodes geht aber darüber hinaus. nach vilém flusser charakterisiert er das wesentliche dasein in unserer welt. wir erleben, erkennen und bewerten durch seine kategorien, durch die möglichkeiten seines ausdrucks. wissenschaften, politik, kunst und philosophie bauen auf den kategorien des alphabetischen kodes auf wodurch die klarheit und dinstinktion des buchstabens in das bewußtsein getreten ist und es nach vilém flusser programiert haben.
die größte veränderung aufgrund der erfindung der schrift ist somit das aufrollen des bildes in zeilen, somit die dominanz des diskursiven line-aren denkens gegenüber dem synthetischen und hierarchischen flächendenken. die grundlage des lineare fortschrittdenken wird in der philosophie als der übergang von mythos zu logos bezeichnet. dieses denken findet heutzutage einige gegner welche die falsche selbstverständlichkeit des alphanumerischen kodes und dessen schwachstellen kritisieren. sie stellen sich gegen die traditionelle vorstellung dass das bild grundsätzlich verstellt und somit das geschriebene wort mehr zur erkenntnis dient.
2. 3. die krise der guttenberg-galaxis
trotz der tradtionellen auffassung dass bilder nun mehr zerstreuen als konzentrieren, scheint es dem menschen relativ leicht zu fallen diese zu entziffern. im gegensatz zum text muss das bild nicht gelesen werden und setzt dadurch keine kulturtechnische schulung vorraus. die lineare sprache, also linear prozessierte wörter, haben darüberhinaus schwierigkeiten bilder zu beschreiben was besonders bei der darstellung von relationen offensichtlich wird. otto neurath empfielt gerade hier eine andere art der kommunkation wie eine neue bildersprache, die in ikonischerform neue übersichten und zusammenhänge schafft und sich dadurch weitaus überzeugender einsetzen lässt als die linear wissenschaftliche argumentation.
dies führt dazu dass viele informationen, unterhaltungen und mediale representationen jenseits jeglicher tyopgrafischen ordnung ablaufen. in der gegenwärtigen alltagskultur wird der alphanumerische code durch fernsehen und internetfernsehen, visualisierungen, grafische benutzeroberflächen und interfaces zunehmend verdrängt. darin sehen viele wissenschaftler eine neue wende der kommunikaton, den sogenannten „pictoral turn“. marshal mc luhan beschreibt dies mit seinem ausspruch “we return to the inclusive form of the icon”. dieser sogenannte nach-alphabetische code bricht somit mit der linearität der schriftkultur. vilém flusser sieht darüberhinaus in diesen neuen technischen bildern ein kreatives moment in dem eine neue form der warhnehmung entsteht. er schreibt: “zuerst trat man von der lebenswelt zurück, um sie sich einzubilden; dann trat man von der einbildung zurück, um sie zu analysieren; und schließlich projeziert man aus der analyse, dank einer neuen einbildungskraft, synthetische bilder”.
das gedruckte wort scheint somit nach und nach aus dem zentrum des kulturellen disukurs zu wandern. walter benjamin sprach in diesem zusammenhang schon einmal von dem “ende der guttenberg-galaxis” und formulierte damit die annahme dass der alphanumerische kode zunehmend von anders strukturierten kodes verdrängt wird. ein wichtiger grund dafür scheint unter anderem auch die tatsache zu sein dass der zugang zu dem inhalt von texten durch die erscheinung die der alpha-numerische code nun mal mit sich bringt erschwert wird. obwohl durch die einführung des internets und der suchmaschinen texte schneller auffindbar werden, bedarf es weiterer techniken und methoden um das wissen in texten zur verfügung zu stellen.
2. 4. aussichten
das internet erlaubt darüberhinaus ein zentrale archivierung und einen weltweiten zugriff auf die literatur dieser welt. dennoch können bisher ein großteil der informationen in den büchern nicht abgefragt werden sondern lediglich sogenannte metainformationen die den inhalt jeweils beschreiben. der zugang zu den dokumenten ist und bleibt somit unbefriedigend, weswegen das interesse an effizienteren suchmaschinen und allgemein an textminingsoftware steig. das auffinden von informationen in texten ist die vorraussetzung dafür dass man diese auch nutzen kann. im zuge der neuen medien bieten sich hier weitaus mehr möglichkeiten an die informationen in texten zu gelangen oder die texte selbst aufschlussreicher darzustellen.
das informationsdesign beschäftigt sich mit der visuellen selektion, strukturierung und einer verdichtendenden reduktion von informationen um neue zusammenhänge darzustellen. nach abraham moles muss sie versuchen die lesbarkeit der welt zu steigern. er sieht die welt als eine art labyrinth, welches es zu entwirren gilt. die zentrale aufgabe der grafikdesigner ist somit die entwicklung neuer medien und die etablierung neuer modelle zur präsentation einer nachricht mit maximalen einfluss bei minimalen zeichenaufwand. die zukunft des kommunikationsdesign liegt seiner meinung nach im entwickeln von sozialen und intuitiven interfaces. dadruch wird der computer vom produktionsmedium für das design zum kommunikationsmittel.
3. quantitative informationen in texten
3. 1. gegenstand der quantitativen linguistik
die sprache ist die wichtigste kommunikationsform des menschen. die tatsache dass viele der weit verbreiteten sprachen dem gleichen grundgerüst entsprechen, nämlich der nomen-verb-distinktion, also der unterscheidung zischen den dingen dieser welt und dessen handlungen, lässt vermuten dass sprache einer bestimmten allgemeinen logik unterliegt. die wichtigsten sprachen dieser welt bestehen darüberhinaus aus buchstaben, wörtern und sätzen.
der duden definiert ein wort als ein element das einen begriff darstellt, dabei jedoch mehrdeutig sein kann. weiterhin ist ein satz eine kombination aus wörtern, wobei dieser eine geschlossene einheit darstellt die nach den regeln einer syntax gebildet worden ist. durch die kombination aus sätzen lässt sich zu guter letzt ein text bilden. das wort text stammt von dem lateinischen wort “textus” was soviel wie “gewebe” oder “geflecht” bedeutet.
ein text ist nach dem duden ein komplexes sprachliches zeichen das von den kommunizierenden zusammenhängend kodiert bzw. dekodiert wird. schreiber und leser folgen dabei syntaktischen, semantischen und pragmatischen regeln. dies bedeutet das jeder text einem bestimmten strukturierten system unterliegt, da informationen in einem systemlosen unstrukturierten material unmöglich sind.
die linguistik als sprachwissenschaft beschäftigt sich mit der beschaffenheit, den mechanismen und der funktion bzw. der entwicklung der sprache. ähnlich wie in anderen wissenschaften kann man auch hier anhand statistischer erhebungen und empirischen regeln eine hierarchie von erklärungen aufbauen die zu immer allgemeineren theorien führen und somit immer mehr sprachwissenschaftliche phänomene abdecken. die elementare aufgabe jeder wissenschaft ist dabei die schaffung eines ordnung in unübersichtlichen daten um somit hinweise auf nicht bekannte phänomene und zusammenhänge zu erhalten. diese ermöglichen dann wiederrum vorhersagen.
wie bereits erwähnt ist dazu in vielen anderen wissenschaften wie in der ökonomie, chemie oder physik das heranziehen statistischer vergleiche und quantitativer modelle eine zulässiges und notwendiges verfahren. die statistik wird hierbei als mathematisches hilfsmittel gesehen dass es ermöglicht gültige aussagen trotz unvollständiger informationen zu treffen. sie operiert dabei mit objektiv feststellbaren werten und setzt diese in beziehung zu ihrer verlässlichkeit.
durch die anwendung mathematischer verfahren auf sprachwissenschaftliche phänomene, entstand somit vor gut 50 jahren die quantitative literaturwissenschaft. sie nimmt nach bestimmten kriterien statistische untersuchungen am textkorpus vor um so auf sprachstatistische gesetzmäßigkeiten und muster zu stoßen. im idealfall werden somit universelle muster gefunden welche mögliche phänomene, ereignisse, zusammenhänge und bedingungen erklären. hierbei sind zum beispiel die länge eines wortes oder dessen häufigkeit von bedeutung. die kopuslinguistik untersucht somit texte auf ihre sprachwissenschaflichen phänomene anhand statistischer verfahren.
dabei sind diese texte oftmals ziemlich lang und kaum mit bloßen augen zu sichten wodurch sich ein einsatz von automatisierten verfahren lohnt. die ziele dieser untersuchung sind somit wie bereits erwähnt die entdeckung und anerkennung statistischer sprachgesetzte die wiederum zu einer eigenen theorie der sprache und zu einem neuen konzept der sprachtheorie führen soll. als praktische anwendung aus diesen erkenntnissen wäre z.b. eine stilforschung verschiedener autoren, eine verbesserung des sprachunterrichts oder eine verbesserung des stenografischen kodes möglich.
diese gesetzmäßigkeiten lassen sich soweit in allen bereichen der linguistischen analyseebenen wie z.b. der lexik, der phonologie, der syntax, der textstruktur und der semiologie finden. nach reinhard köhler treten sie zu jeder zeit in allen großen sprachen auf, lassen sich aber dennoch in keinem lehrbuch über sprache finden. dennoch gibt es viele eigenschaften und beziehungen die man mit hilfe von zahlen und rangreihenfolgen ausdrücken kann. diese unterliegen meistens allgemeingültigen gesetzen die sich widerum streng mathematisch formulieren lassen. diese stochastischen gesetze sind nicht in jedem einzelfall erfüllt sondern schreiben wahrscheinlichkeiten vor, was letztendlich nichts anderes bedeutet als dass die anzahl der gegenbeispiele bereits in diesem statistischen wert miteinkalkuliert ist.
einige wichtige quantitative eigenschaften denen man bisher wenig beachtung schenkt, die aber dennoch intuitiv richtig eingestuft werden ist z.b. die frequenz eines wortes in einem text. so lassen sich zum beispiel die drei wörter “das”, “sagen” und “quantitative linguistik” relativ schnell nach ihrer durchschnittlichen häufigkeit in texten sortieren.
die einführung quantitativer begriffe, modelle und methoden in die sprach- und textwissenschaft ist weiterhin aus folgenden gründen notwendig: zunächste einmal ist die sprache nach reinhard köhler nicht vollständig durch qualitative merkmale beschreibbar, vielmehr orientieren sich regeln immer nur an eindeutigen fällen. dies bedeutet dass der größte teil sprachlicher und textueller eigenschaften durch qualitative merkmale nicht zu entdecken ist. letztendlich versucht die quantitative linguistik durch modellierung von zusammenhängen und mechanismen, texte tiefgehend zu analysieren. die anwendung quantitativer modelle und methoden auf einen text ist somit gerade bei der variabilität und der vagheit der natürlichen sprache von bedeutung. überall dort wo rein deterministische methoden versagen, also eher tendent und präferenz als strikte prinzipen herrschen lohnt sich der einsatz statistischer verfahren. im gegensatz zu deterministischen modellen besitzen sie neben den beiden polen „ja“ und „nein“ viele zwischenstufen wodruch mehr fälle und regeln erfasst werden können.
der statistische ansatz fasst also im gegensatz zum qualitativen ansatz das ergebiss als eine rein stochastische gesetzmäßigkeit auf die einer menge von bedingungen unterliegt. dadurch können tendentielle und subjektive beurteilungskriterien operationalisiert und zusammenhänge zwischen einheiten bzw. eigenschaften erkannt werden. diese wären mit dem qualitativen instrumentarium nicht sichtbar.
der vorteil dieser verfahren ist weiterhin dass sie sehr viel einfacher automatisiert werden können als qualitative verfahren. die linguistische untersuchung unterliegt oftmals einer komplexe thematik die einen gewissen grad an wartung der lexika und stichwortlisten vorraussetzt und immer im kontext der kultur und des zeitgeists betrachtet werden muss. quantitative methoden sind somit den qualitativen methoden überlegen da sie durch ihre höhrere auflösung die realität genauer beschreiben.
3. 2. einige gesetze der quantitativen linguistik
wie bereits erwähnt ist eines der ersten und grundlegenden gesetze die häufigkeit eine wortes im textkorpus. schon seit der ersten hälfte des jahrhunderts legte george kingsley zipf mit seinen systematischen untersuchungen und statistischen zählungen den grundstein für die quantitative linguisitk. dabei fand er heraus dass die rangzahl und die häufigkeitsklasse eines wortes in einem bestimmten zusammenhang stehen. dieses phänomen folgt nach george kingsley zipf dem “prinzip der geringsten anstrengung”. dabei tretten in jeder natürlichen sprache funktionswörter am häufigsten auf.
weiterhin steht die häufigkeit eines wortes allgmein umgekehrt proportionale zu seiner länge. dies bedeutet dass kurze wörter meistens häufiger gebraucht werden als lange, was sich auch in der entwicklung der sprache wiederspiegelt wo oftmals häufig benutzte begriffe verkürzt werden. diese gesetzte sind trotz einiger kleiner fehler und mängel‚ bis heute unter sprachwissenschaftler anerkannt.
ebenso kann man einen zusammenhang zwischen der anzahl der bedeutungen und der länge eines wortes erkennen: je kürzer ein wort ist, desto mehr bedeutungen hat es. wobei die länge eines wortes sich auf die anzahl der buchstaben, laute, morphe oder sillben beziehen kann. die wortlänge ist somit die bisher besterforschte sprachgröße in der quantitativen linguistik. so kommt es dass der physiker w. fuchs ein modell zur wortlängenverteilung herausgefunden hat was besagt dass sich die silbenlänge umgekehrt proportional zur worthäufigkeit verhält.
analog dazu ist ebenfalls ein einfaches kriterium für die komplexität eines satzes seine länge, also die anzahl seiner buchstaben, silben, wörter und teilsätze. das vorkommen von sätzen verschiedener längen kommt somit ebenso nach einer bestimmten häufigkeitsverteilung vor.
weiterhin interessant ist in diesem zusammenhang auch das menzerath-altman-gesetz. es besagt dass die bestandteile einer einheit umso kleiner sind, umso größer die gesamte einheit, also die anzahl der bestandteile ist.
ein weiteres gesetz ist auch das martinsche gesetz welches aussagen über die hierarchischen strukturierung des wortschatzes im lexikon einer sprache macht. der wortschatzwachstum sowie die veränderung des flexionssystems unterliegen dabei ebenso einer bestimmten gesetzmäßigkeit was man unter den sprachwandelgesetzen versteht.
eine weitaus komplexere theorie bestehend aus mehreren sprachgesetzen ist zum beispiel der regelkreis von reinhard köhler. er geht davon aus dass häufige wörter je nach frequenz umso kürzer sind. weiterhin hat aber ein wort je kürzer es ist umso mehr bedeutungen. umso mehr bedeutungen aber ein wort hat umso häufiger ist auch seine anzahl im text. folglich muss ein wort je öfter es im text vorkommt auch insgesamt umso häufiger sein.
die quantitative linguisitik eignet sich somit zur informationsextraktions aus texten. aufgrund der relativ einfachen umsetzung zur automatisierung werde ich einige dieser verfahren verwenden.
4. die entwicklung des modells
4. 1. die darstellung des textes
um nun ein modell zu entwickeln dass statistische werte visualisiert, ist es zunächst wichtig dass man auf einen blick die buchstaben-, wort- und satzpositionen sieht. nicht nur um feststellen zu können in welchem teil einer texteinheit, also buchstabe, wort oder satz, sich eine andere texteinheit befindet, sondern um die darstellung größerer texte übersichlich zu halten. die struktur des textes, das heißt die chronologische reihenfolge der satzelemente, muss dabei selbstverständlich erhalten bleiben.
bei diesen anforderungen eines somit begrenzten räumlichen modells, wurde ich unter anderem von den „narrative structures“ von mark lombardi inspiriert. er zeigt in ihnen die, bis ins kleinste recherchierten verbindungen, zwischen einzelnen personen und wichtigen ereignissen. dadruch verschafft lombardi dem betrachter einem überblick über ein netz aus korruption und einfluss. ähnlich dieser darstellung, die ausschließlich aus unterschiedlichen linienarten und pfeilen besteht, könnte man die verbindung der einzelnen buchstaben, wörter und sätze aufzeigen.
um größere texte darstellen zu können bedarf es somit eines modells das anders als bei der darstellung von text sich nicht in die länge ausdehnt sondern sich verdichtet. das heisst bei größerem umfang des textes wird nicht die darstellung größer sondern der feste rahmen mehr und mehr gefüllt. die dichte drückt somit wenn auch nur ungenau den umfang des textes aus.
um jedoch die reihenfolge der textelemente aufrecht zu halten muss diese zeitliche information weiterhin kodiert bleiben. hierzu habe ich auf die grundlegende idee des ziffernblatts zurückgegriffen. angenommen man verteil einen text auf den umfang eines kreises führt dies unabhängig von der größe des ausgangstext zu einer gleichbleibend großen grafik. durch einige skizzen hat sich somit folgendes ausggangsmodell ergeben:
die primäre aufgabe des entgültigen modells ist es, jeweil aufschluss über die position einzelner textelemente zu geben. dazu muss man sagen dass in dem modell grundsätzlich zwischen buchstaben, wörtern und sätzen unterschieden wird. alle diese unterschiedlichen einheiten werden nun zu beginn gleichmäßig auf einem eigenen ring um ein gemeinsames zentrum verteilt. daraufhin wird die chronologische reihenfolge der wörter durch einzelne verbindungslinien wiederhergestellt. je nachdem welcher buchstabe nun welchem wort angehört bzw welches wort welchem satz verbindet eine linie diese einheiten miteinander. dabei wird in der ausgangseinstellung diese einzelnen texteinheiten selbst durch punkte ersetzt.
somit wird ein text in diesem modell folgendermaßen dargestell: ein punkt im zentrum der grafik repräsentiert den text an sich, die punkte auf dem ersten innenkreis die nächst kleinere einheit, also alle sätze, und die punkte auf dem mittleren kreis jeweils die wörter. auf dem letzen äußeren kreis werden alle buchstaben abgebildet. die radien der einzelnen kreise ergeben sich aus ihrem notwendigen umfang, also aufgrund der tatsache das ein text aus mehr buchstaben als aus wörter und aus mehr wörtern als aus sätzen besteht. schlussendlich benötigt somit die gesamtheit aller buchstaben in der endgültigen darstellung mehr platz als die gesamtheit aller wörter oder sätze.
bei der eingabe des ersten buchstaben passiert nun folgendes: zunächst einmal erscheinen vier, miteinanderverbundene punkte. der äußerste punkt repräsentiert dabei den eingegebenen buchstaben. die nächsten drei punkt stellen weiterhin von außen nach innen das wort, den satz und den text dar. diese einheiten bestehen in diesem fall jeweils alle aus nur einem buchstaben.
die anordnung der elemente erfolgt dabei so, dass das letzte eingegebene wort in leserichtung um den kreis angeordnet wird, somit auf einer gedachten horizontalen linie rechts durch den mittelpunkt steht. erfolgt nun die eingabe eines weiteren buchstaben wird der jeweilig umfang der kreise durch die anzahl der buchstaben, wörter oder sätze geteilt. das heisst das alte satzelement wird um den bruchteil im uhrzeigersinn auf dem kreis verschoben. als fertiges endbild entsteht somit bei der eingabe eines textes eine gleichmäßige verteilung der punkte in der darstellung.
die vorteile dieser darstellung werden besonders bei größeren texten offensichtlich. zunächst einmal erlaubt diese darstellung die schnelle bestimmung eines buchstaben, wortes oder satzes innerhalb eines textes weiterhin wird die struktur, also die verzweigung der einzelnen textelemente sowie dessen längen sichtbar. die informationen der bedeutung hinter den einzelnen wörter geht dabei natürlich verloren. eine weitere wichtige quantitative information in texten ist wie bereits erwähnt die länge der einzelnen textelemente. eine wichtige anforderung an das modell ist somit auch die erweiterte darstellung dieser informationen, wobei nebenbei gesagt diese bereis aus der grunddarstellung gelesen werden kann. hierbei muss ein weg gefunden werden der auf einen blick die wort- und satzlänge verrät um die verortung kurzer und langer wörter in einem text visualisiert.
die lösung des problems liefert an sich die schrift in sich selbst. wörter, sätze und text bestehen aus buchstaben die als kleinste, nicht zu zerlegende, einheit je nachdem welche schriftart man verwendet annähernd einen gleiche breite besitzen. somit wird die wichtigsten informationen über wort- und satzlängen bereits im erscheiungsbild der schrift selbst kodiert.
so trivial das auch klingen mag, aber ein relativ langes wort besteht aus mehreren buchstaben und ist somit länger in seiner erscheinung als ein kürzeres wort. also ein wort aus zehn buchstaben ist somit in etwa doppelt so lang wie ein wort aus fünf buchstaben. um die vergleichbarkeit der einzelenen elemente zu gewährleisten muss man somit nun nur noch die wörter oder sätze untereinanderstellen, bzw um 90 grad gedreht nebeneinander stellen. der vorteil dieser darstellung ist das sich somit eine art verlauf der länge darstellen lässt ähnlich der lautstärke eines tons. eingebaut in die bestehende grunddarstellung wird diese folgendermaßen erweitert:
in der dem fertigen modell gibt es somit zwei möglichkeiten die länge eines texteinheit zu bestimmen: erstens durch die anzahl der linien welche die einzelnen punkte miteinander verbinden, zweitens durch die darstellung der gedrehten textelemente. die anordnung der textelemente erfolgt dabei ähnlich der skizze, eben nur auf der kreisumlaufbahn. der letzte getippte buchstabe, oder satz bzw das letzte getippe wort wird dabei traditionell in leserichtung angeordnet und bleibt somit weiterhin lesbar. alle vorgehenden elemente werden je nach positon auf den umlaufbahnen um den winkel einer fiktiven linie durch den mittelpunkt gedreht. das letzte wort wird somit richtig dargstellt wohingegen das gegenüberliegende wort um 180 grad gedreht wird.
der vorteil dieser darstellung ist wie bereits erwähnt dass die wort- und satzlängen gut erkennbar sind. die verwendete schriftart der textdarstellung ist die din-schrift welche ursprünglich für die dartellung von kennzeichen und ortsschildern entwickelt wurde und sich durch eine gute lesbarkeit auszeichnet. weiterhin besitzen die einzelnen buchstaben durch die schriftart eine relativ gleichbleibende breite was den vergleich von wort- und satzlängen überhaupt erst ermöglicht.
eine weitere wichtige anforderung an die darstellung ist dass man wort- und satzhäufungen möglichst schnell erkennen kann. dies ermöglicht dann bestimmte wortwiederholungen untereinander zu vergleichen um auf mögliche sprachphänomene oder inhaltliche schlüsselwörter, durch die dominanz bestimmer wörter oder sätze, zu stoßen. weiterhin sollte nicht nur die anzahl der häufungen sondern auch die verortung bestimmter häufungen klar zu erkennen sein um z.b. das erste auftretten eines schlüsselwortes oder die stellen an den das wort besonders häufig auftritt erkennen zu können.
die urspüngliche idee der darstellung von wort- und satzhäufungen war zunächst die größe der punkte bei ansteigender häufung anzupassen. dies würde bedeuten dass der radius eines punktes der fünfmal vorkommt, fünf mal so groß ist wie der radius eines punktes der nur einmal vorkommt. der vorteil dieser visualisierung wäre ein sehr schnelles erfassen des häufigsten wortes sowie dessen relation zu anderen wörtern, da die größenunterschiede von formen sich ja wie bereits erwähnt sehr schnell feststellen lassen und gut miteinander vergleichbar sind.
der nachteil dieser idee beruht jedoch auf der tatsache dass bei einer vergrößerung von jeder wiederholung die grafik sehr schnell unübersichtlich wird. da in der grunddarstellung jedes wort abbildet wird, überlagern sich bei einer vergrößerung aller punkte, diese gegenseitig. die einzige möglichkeit dies zu umgehen wäre alle weiteren instanzen einer wiederholung auszublenden. da dies jedoch dem grundprinzip der darstellung widerspricht ist diese idee unbrauchbar. um die leserlichkeit des modells zu erhalten darf somit nicht die form der einzelnen verändert werden sondern eine andere eigenschaft der grafik.
die in der darstellung gewählte kodierung für satz- und wortwiederholungen ist somit keine veränderung der form, sondern eine veränderung der farbe. das problem der bisherigen monochromen darstellung ist dass man jedes individuelle wort mit seinen wiederholungen schwer von den restlichen wörtern unterscheiden kann. durch die verwendung eines jeweils individuellen farbtons kann man aber ganz ohne die verwendung von filtern, also dem ausschluss von wörtern, diese nun auseinander halten.
für die kennzeichnung der wörter verwende ich das hsb-farbmodell. darin wird die jeweilig farbe durch drei werte bestimmt: einerseits durch den farbton, angegeben in grad, weiterhin durch die sättigung und helligkeit, jeweils ausgedrückt in prozent. in der darstellung wird dabei lediglich der farton benötigt, das heisst die restlichen werte, sättigung und helligkeit betragen jeweils 100 %.
der farbkreis baut sich nun also angefangen bei 3 uhr im uhrzeigersinn auf. jedes element erhält dabei den farbwert auf dem farbkreis bei dem es das erste mal im text erscheint. durch diese regel wird im gesamtbild die komplette bandbreite des farbmodells ausgenutzt. tendenziell muss man jedoch sagen kommen die meisten ersterscheinungen eines wortes bereits im ersten viertel des textes vor wodurch die farbe rot fast immer in der darstellung dominiert.
jedes wort wird nun also in diesem modell einem farbwert zugeordnet wodurch gleiche wörter die gleiche farbe besitzen. durch diese erweiterung im modell kann man nach kurzer zeit relativ schnell erkennen wann und wie oft welches wort vorkommt. trotz der vorteile dieser darstellung bleibt aber der numerische wert der wiederholungen unbekannt.
4. 2. die extraktionsfilter
in der annahme das bestimmte bereiche eines textes, also einleitungen, satzenden oder wortendungen, unterschiedliche informationen beihalten bedarf es nun der möglichkeit diese gesondert zu betrachten. so ist es zum beispiel sinnvoll wenn zur quatitativen analyse von informationen, an unterschiedliche positionen im text, unterschiedliche messungen durchgeführt werden können. dadurch könnte man bestimmte teile einens textes gesondert analysieren wie zum beispiel das ende eine wissenschaftlichen arbeit oder den höhepunkt einer geschichte. dazu muss man aber die möglichkeit besitzen alle irrelevanten bereiche der darstellung auszublenden.
hierzu ist also der einsatz eines filtern notwendig. durch ihn muss man die möglichkeit besitzen den text, die sätze oder die wörter zu beschneiden, also einen gewissen prozentsatz am anfangs oder am ende wegzunehmen. dadurch dass es sich um einen prozentuellen wert handelt kann man dann ein und dieselbe filtereinstellung für unterschiedliche texte verwenden, wenn man davon ausgehen kann dass die verhältnisse der sinneinheiten untereinander also der dramatugische oder argumentative verlauf eines texes ähnlich ist. in der darstellung macht sich der beschnitt insofern bemerkbar dass alle betroffenen teile nicht abgebildet werden.
ein weiterer filter um einen textkorpus nach statistischen werten zu untersuchen ist der wort- und satzlängenfilter. die notwendigkeit eines solchen filters zur inhaltlichen informationsextraktion beruht auf der annahme dass wörter und sätze unterschiedlicher länge, eine unterschiedliche bedeutung im text besitzen. längere sätze, d.h. bestehend aus mehreren wörter haben somit im durchschnitt einen höheren informationsgehalt als kürzere sätze.
dieser filter muss sich natürlich nicht zwangsläufig zur ermittlung relevanter informationen eignen, stellt aber eine durchaus legitime methode da den zusammenhang zwischen der länge einer texteinheit und der damit verbundenen information in beziehung zu setzen. so kann man z.b. erkennen das kurze wörter oftmals funktionswörter sind und wenig repräsentative informationen beinhalten. das gleiche gilt auch für sätze, da die wahrscheinlichkeit relevanter informationen bei längeren sätzen zunimmt. um lange sätze und wörter von kurzen zu unterscheiden bedarf es nun also eines filters der diese erst ab einem bestimmten wert in der darstellung anzeigt.
dieser sogenannte wort- und satzlängenfilter wird in der fertigen anwendung durch einen absoluten schwellenwert definiert. dazu bestimmt man einen minimum und ein maximum, also ab wann und bis zu welcher länge ein wort oder ein satz angezeigt werden soll. das heisst alle wörter die nicht der filtereinstellung entsprechen werden nicht in dem modell dargestellt. das maximum und minimum kann soweit verändert werden bis einzelne wörter mit einer bestimmten anzahl von buchstaben oder einzelne sätze mit einer bestimmten anzahl von wörtern dargestellt werden.
der letze und dennoch wichtigste filter ist aber der häufigkeitsfilter. er ermöglicht es dem betrachter nur die wörter die mit einer bestimmten frequenz im text vorkommen anzuzeigen. auch hier eignet sich ein relativer wert da die wortfrequenz logischerweise stark vom umfang des textes abhängig ist. dadruch besteht auch hier wieder die möglichkeit texte mit ein und derselben filtereinstellung zu vergleichen.
inhaltlich gesehen sind jedoch lediglich die wörter von bedeutung die mit einer mittleren häufig vorkommen, da sehr häufige wörter oftmals funktionswörter sind und zu seltene wörter meistens für den gesamten text eine unwesentliche rolle spielen, da die menschliche argumentation zu bekräftigung einer position zur wiederholung von wörtern und sätzen neigt.
in der anwendung wird der häufigkeitsfilter durch die eingabe eines prozentuellen schwellenwertes mit einer ober- und untergrenze definiert. alle wörter die diesen einstellungen widersprechen werden in der darstellung nicht angezeigt. dadruch lassen sich bestimmte häufigkeitsklassen einzeln betrachten.
4. 3. die programmierung der anwendung
wie anfänglich erwähnt wurde dieses modell von vorne herein so konstruiert dass der benuzer die möglichkeit besitzten soll in die darstellung des textes einzugreifen. zur realisierung dieser anwendung habe ich mich deshalb für die programmierung mit processing enschieden. dieses freiverfügbare anwendung wurde von benjamin fry und casey reas zur programmierung von grafischen benutzeroberflächen entwickelt.
processing selbst wurde in java geschrieben und wandelt den in ihr geschriebenen quellcode ebenfalls in java um. tendentiell sind grafikanwendungen die mit processing geschrieben werden schneller als vergleichbar actionscript oder lingo anwendungen. processing verwendet in seinem editor eine vereinfachte objektorientierte programmiersprache die keine umfangreichen kenntnisse bezüglich classes, object-animations und double-buffering vorraussetzt. die eigens entwickelte sprache besitzt viele ähnlichkeiten mit actionscript.
das von mir entwickelte und geschriebene programm ist in groben zügen etwa folgendermaßen aufgebaut: zunächst einmal wird der über den texteditor eingegebene text in einem string gespeichert. dieser textstring wird dann in einigen darauffolgenden schritten in drei unterstrings zerlegt. diese unterstrings beinhalten entweder einzelne sätze, wörter oder buchstaben. der anfang und das ende dieser unterstrings wird dabei durch ein leerzeilen für wörter oder durch einen punkte für einen satz definiert.
im einem nächsten schritt wird der inhalt all dieser unterstrings bzw. der textstring selbst durchnummeriert. d.h. alle wörter, sätze und buchstaben im textstring, alle wörter und buchstaben im satzstring und alle buchstaben im wortstring erhalten eine eigene nummer. aus diesem zugewiesenen index wird dann wiederum die anzahl der buchstaben, wörter und sätze im text, bzw. die anzahl der wörter in den sätzen und die anzahl der buchstaben in den wörter ermittelt.
nachdem der ausgangstext nun zerlegt und gegliedert ist wird in einem weiteren schritt die position der elemente errechnet. dies geschieht indem der kreisumfang durch die anzahl der jeweiligen elemente, also durch die anzahl der buchstaben, wörter oder sätze geteilt wird. dabei wird für jedes enzelne element die individuelle position über die berechnung des winkels bei feststehendem radius ermittelt. noch bevor die einzelnen elemente in der grafik dargestellt werden schränken die filter, die sich im quellcode vor der berechnung der positionen befinden, die darstellung ein.
die häufigkeit einzelner wörter wird dann über das zuletzt eingegebene wort errechnet, welches mit dem bestehenden wortstring verglichen wird. dabei wird jede positive übereinstimmung gezählt. als letzter schritt wird dann je nach position dem wort ein farbwert zugeordnet. bereits vorgekommenen wörtern wird dabei der farbwert den das wort bereits erhalten hat zugeordnet.
5. die anwendung
5. 1. allgemeine bedienung
das interface der anwendung ist zunächst einmal in vier bereiche aufgeteilt. in der mitte des grafik befindet sich der kern der anwendung, das erechnete model. am unteren rand kann man den text über einen editor eingeben und an der rechten und linken seite befindet sich jeweils die hilfe und die informationsanzeige.
die eben erwähnte informationsanzeige kann man über die taste “`” ein- und ausblenden. hierzu muss man zunächst einmal sagen dass die bedienung der anwendung ausschließlich über die tastatur erfolgt und weiterhin für die englische tastatur des macbook pro optimiert wurde. in der eingeblendeten informationsanzeige sieht man den titel des eingegebenen textes sowie die anzahl der buchstaben, wörter und sätze. weiterhin kann man überprüfen welcher filter wie stark auf den text angewandt wurde und welcher teil des ausgangstextes nach dem einsatz der filter noch übrig bleibt.
die eingabe des textes erfolgt dabei über den texteditor. dieser kann über die tabulator taste ein- und ausgeblendet werden. in dem editor selbst kann man den text sowie den titel des textes eingeben. der editor funktioniert dabei wie ein gewöhnliches textverarbeitungsprogramm, in welches man textblöcke hereinkopieren kann. die formatierung des textes hat dabei keinen einfluss auf die darstellung. bei längeren texten erscheint an der rechten seite des editors eine laufleiste. der letzte bereich des interface ist die hilfe. sie kann durch das “?” auf der tastatur ein- und ausgeblendet werden. die hilfe gibt auskunft über die tastenbelegung zur steuerung der anzeige und der filtereinstellungen. diese ist dabei folgendermaßen unterteilt: der obere teil der hilfe zeigt alle tasten an die man zum verstellen der einzelnen parametern in den filtern benötigt. weiter unten folgen dann die tasten welche die darstellung des textes steuern. über die tasten “1″ bis “9″ kann man einzelne voreinstellungen der filter aufrufen. die taste “0″ setzt dabei alle einstellungen wieder auf ihren anfangswert zurück. desweiteren kann man bei eingeblendeter hilfe die umlaufbahnen der einzelnen textelemente sehen. eine ausführliche erklärung der tastenbelegung findet man auf den kommenden seiten.
der großteil der anwendung wird wie bereits erwähnt über die tastatur gesteuert. dennoch lässt sich aber die häufigkeitswerte eines wortes über den mauszeiger abfragen.
5. 2. bedienung der darstellung
wie bereits erwähnt erfolgt die texteingaben über die tastatur. zeilenumbrüche und einrückungen in der formatierung werden dabei nicht berücksichtigt. die anwendung reagiert ausschließlich auf leerzeilen und punkte, was entweder für ein wortende oder eben ein satzende steht. aus diesem grund muss die formatierung hereinkopierter texte diesen anforderungen entspre-chen da sonst die berechnung des modells fehlerhaft ist.
zunächst einmal hat man die möglichkeit über die tastatur die allgemei-ne darstellung des modells anzupassen. dazu kann man die einzelnen kreisradien über die tasten “(“,”)”,”[","]“,”{“,”}” entweder vergrößern oder verkleinern. dies hat den vorteil dass man die schrift entweder auseinander- oder zusammenzuziehen kann was je nach fall die leserbarkeit der darstellung verbessert. verwendet man die beiden tasten “>” und “<” kann man alle radien gleichzeitig vergrößern oder verkleinern. weiterhin kann das ganze modell über die pfeiltasten verschoben werden was besonders bei der betrachtung einzelner teile notwendig ist.
als nächstes kann man die darstellung der textelemente steuern. über die taste “r” bzw. “r” in kombination mit “shift” oder “shift” und “alt” kann man die verbindungslinien zwischen buchstaben und wörtern, wörtern und sätzen, sätzen und text, ein- oder ausblenden. jede gruppe kann dabei individuell gesteuert werden was in bestimmten fällen die prägnanz der darstellung erhöht.
in der anfangseinstellung wird jeder buchstabe, jedes wort und jeder satz durch einen punkt repräsentiert. über die taste “e”, bzw. “e” in kombination mit “shift” oder “shift” und “alt” kann man diese punkte jeweils ein- oder ausblenden. die punktdarstellung ermöglicht eine klare aufgeräumte grafik und eignet sich um die verortung von texteinheiten auf einen blick zu sehen.
weiterhin kann man auch durch die taste “t”, bzw. “t” in kombination mit “shift” oder “shift” und “alt”, den originaltext in dem modell ein- oder ausblenden. dies ermöglicht wie bereits erklärt den vergleich bestimmter wörter bezüglich ihrer länge.
zu guter letzt kann man noch den index einer texteinheit über die taste “i” ,bzw “i” in kombination mit “shift” oder “shift” und “alt” darstellen. dabei wird die position eines satzes im text, eines wortes im satz oder eines buchstaben im wort in einer zahl ausgedrückt.
über die taste “|” kann letztendlich die frequenzanzeige der anwendung ein- und ausgeschaltet werden. bei dieser anzeige wird wie bereits erwähnt jedes wort durch einen eigenen farton dargestellt. dies ermöglicht das unterscheiden der einzelnen wörter und ihren wiederholungen.
5. 3. bedienung der filter
der erst filter ermöglicht es über die tasten “q”, “w”, “Q”, “W”, “a”, “s”, “A”, “S”, “y”, “x”, “Y”, “X”, den text bzw. die sätze oder die wörter um einen gewissen prozentuellen wert zu beschneiden. als folge wird ein teil des anfangs oder endes der beschnittenen sätze oder wörter nicht angezeigt. durch die verwendung eines prozentuellen wertes kann ein und dieselben filtereinstellungen für texte mit unterschiedlichem umfang verwendet werden.
desweiteren kann der wort- und satzlängenfilter über die tasten “d”, “f”, “c”, “v” bzw. “D”, “F”, “C”, “V” gesteuert werden. hierzu müssen jeweils zwei absolute schwellenwerte definiert werden die festlegen ab wann und bis zu welcher länge, wörter oder sätze in der grafik angezeigt werden. wenn also ein z.b. ein wort nicht größer als der untere schwellenwert oder kleiner als der obere schwellenwert ist, wird dieses in der darstellung nicht angezeigt.
mit dem letzten und wichtigsten filter kann man wörter die mit einer bestimmten häufigkeit vorkommen aussortieren. über die tasten “b”, “n”, “B”, “N” wird auch hier wieder ein prozentualer schwellenwerte definieren der wörter ab und bis zu einer bestimmten häufigkeit anzeigt. durch die angabe in prozent kann man ein und dieselben filtereinstellungen für unterschiedliche texte verwenden.
6. die schlussbetrachtung
da nun die entwicklung und die bedienung der anwendung erklärt wurden ist es nun an der zeit die qualität der ergebnisse zu bewerten. bei der analyse vieler untschiedlicher texte sind dabei folgende stärken und schwächen der programmierten anwendung aufgefallen:
besonders geeignet scheint diese form der darstellung für den aufbau eines textes im zeitlichen verlauf zu sein. diese wird bei der analyse von reden und ansprachen besonders offensichtlich. so kann man bei vielen dieser texte durch die individuelle einstellung der filter geradezu eine übertriebene verwendung bestimmter emotionaler wörter an bestimmten stellen einer rede erkennen. sei es nun zum zusammenhalt vor einem drohenden krieg oder energisch gegen bestimmte vorhaben. diese visualisierung offenbart oftmals eindrucksvoll bestimmte intentionen eines redners und macht die gewollt manipulative methode offensichtlich.
diese stilistische untersuchung lässt sich auch in den mittelpunkt einer analyse stellen indem man gezielt versucht den stil literarischer texte und eines autors zu definieren. dies ist dann von interesse wenn man unterschiedliche texte zur gleicher thematik unterucht, sei es im journalis-tischen oder wissenschaftllichen bereich. hier können subjektive unterschiede die perspektive auf eine vermeidliche tatsache stark verändern. eine entlarvung typischer argumentationsmuster könnte klarheit über eine thematik verschaffen.
in bereich der kommerziellen verwendung dieser anwendung wäre eine durch voreinstellungen automatisierte textanalyse die ohne jegliches zutun auskunft über ein text gibt sinnvoll. so könnten internetseiten durch dieses verfahren kurz und aussagekräftig duch diese kleinen darstellungen umrissen werden. eine art automatisiertes inhaltsverzeichnis das schlagwörter in seinem verlauf anzeigt und somit der benutzer entscheiden kann in wie fern dieser text von interesse für ihn ist.
abschließend sei doch gesagt dass sich die effizenz dieses programms besonders in seiner anwendung liegt. durch das herantasten der filter an bestimmte muster und regel erhält man somit einen eindruck über dessen beschaffenheit. gerade das schnelle arbeiten, die kleinen veränderungen der filter zeigen dem benutzer unterschiedliche aspekte eines textes und bestätigen die richtig wahl des mediums computer der diese notwendige interaktionsmöglichkeiten erst zulässt.
7. quellen und inspirationen
ryan abdullah, roger hübner:
„piktogramme und icons“
verlag herrmann schmidt mainz
2005
ottl aicher:
„typographie“
verlag hermann schmidt mainz
2005
dudenredaktion:
„der duden – die grammatik“
dudenverlag
2006
umberto eco:
„einführung in die semiotik“
w. fink utb für wissenschaft
2002
will eisner:
„graphic storytelling and visual narrative“
poorhouse press
1996
vilém flusser:
„kommunikologie“
fischer
2003
3. auflage
benjamin j. fry:
„computational information design“
massachusetts institute of technology
2004
benjamin j. fry:
„organic information design“
massachusetts institute of technology
2004
gérard genette: „die erzählung“
w. fink, utb für wissenschaft
1998
frank hartmann:
„medienphilosophie“
WUV
2000
frank hartmann, erwin k. bauer:
„bildersprache – otto neurath visualisierungen“
wuv
2006
reinhard köhler, gabriel altmann, rajmund g. piotrowski:
„quantitative linguisitk“
gruyter
2005
brenda laurel:
„computers as theatre“
addison wesley publishing company
1993
juri m. lotman:
„die struktur literarischer texte“
w. fink, ubt für wissenschaft
1993
mark lombardi:
„global networks“
independant curators international
new york
2004
gerhard meyer, uwe quasthoff, thomas wittig:
„text mining: wissensrohstoff text“
w3l
2006
christa maar, hubert burda (hg):
„iconic turn“
dumont literatur und kunst verlag
2005
lev manovich:
„the language of new media“
the mit press
2001
marshall mcluhan, hubert m. mcluhan:
„understanding media“
taylor & francis
2001
janet h. murray:
„hamlet on the holodeck“
the mit press
1997
edward r. tufte:
„beautiful evidence“
grafic press llc
2006
edward r. tufte:
„envisioning information“
grafic press llc
1990
edward r. tufte:
„the visual display of quantitive information“
graffic press llc
2001