Schlagwort-Archive: Korpuslinguistik

Namenlandschaften 1: Große Flächen

Von Kristin Kopf

Über die Feiertage ist mir mal wieder aufge­fall­en, wie prä­gend Namen für eine Gegend sein kön­nen. Wenn ich in den Süden fahre, merke ich nicht nur am isch und kannsch und weisch, dass ich zuhause angekom­men bin, son­dern auch daran, dass die Leute plöt­zlich Him­mels­bach, Göp­pert und Ohne­mus heißen.

Und tat­säch­lich sind alle Namen, die mir typ­isch vorka­men, in “meinem” Land­kreis oder einem direkt angren­zen­den mit Abstand am häu­fig­sten. Um noch mehr solch­er Namen zu find­en, habe ich dann die Face­book­fre­unde mein­er Ver­wandtschaft durchgeschaut, was sich als exzel­lente Strate­gie erwiesen hat. (Man kön­nte da richtig kreativ wer­den mit Face­bookpro­filen: Öffentlich zugängliche Pro­file mit Wohnor­tangaben automa­tisch auswerten und damit ein “Namen­pro­fil” eines Ortes erstellen. Namen von Leuten, die noch zur Schule gehen, kön­nten dabei ein stärk­eres Gewicht bekom­men, weil sie eher noch an ihrem Herkun­ft­sort leben. Oder Namen von Leuten, bei denen Wohn- und Schu­lort iden­tisch sind. Großstädte wer­den wegen der vie­len Umzieherei ignori­ert. Etc. Aber ich fürchte, das gren­zt dann schon an Ille­gal­ität und set­zt kein so gutes Zeichen in punc­to Datenschutz.)

Wenn man nun Namen als typ­isch im Ver­dacht hat, wie kriegt man raus, wie häu­fig sie wo sind? Als am besten geeignet für solche Zwecke haben sich Dat­en aus elek­tro­n­is­chen Tele­fon­büch­ern her­aus­gestellt – darin sind die Namen ja ganz genau bes­timmten Postleitzahlen­bere­ichen zuge­ord­net. Mit­tels bes­timmter Com­put­er­pro­gramme kann man sie dann pri­ma auf ein­er Deutsch­land­karte verorten.

Ide­ale, aber lei­der nicht öffentlich zugängliche Möglichkeit­en dazu hat der Deutsche Fam­i­li­en­na­me­nat­las (ein Pro­jekt der Unis Mainz und Freiburg, mit Tele­fon­buch­dat­en von 2005), aber es gibt auch im Inter­net eine sehr brauch­bare Option, auf die ich hier schon ein­mal ver­wiesen habe, näm­lich Geogen (mit Tele­fon­buch­dat­en von 2002).

Unterteilt in zwei kleinere Beiträge will ich zunächst ein­mal zeigen, welche Namen es über­all gibt und bei welchen man trotz recht weit­er Ver­bre­itung großflächige Unter­schiede erken­nen kann (heute) und dann die ein­gangs erwäh­n­ten Namen zeigen, die für einen ganz bes­timmten Land­kreis typ­isch sind und son­st fast nir­gends in Deutsch­land auftreten (lat­er this week). Weit­er­lesen

Von thun zu tun: Orthographie bei Ngrams

Von Kristin Kopf

In den let­zten Tagen sind mir noch tausend Spiel­ereien einge­fall­en, die man mit Ngrams machen kann. Unter anderem lässt sich damit recht gut sicht­bar machen, wie schnell orthographis­che Stan­dar­d­isierung und Änderung sich in Büch­ern durch­set­zen konnten.

Wichtige Zeit­punk­te sind dabei zum einen die II. Orthographis­che Kon­ferenz (1901, dazu im Sch­plock hier und hier), bei der erst­mals eine verbindliche Rechtschrei­bung fest­gelegt wurde, und zum zweit­en die Rechtschreibre­form von 1996. Weit­er­lesen

[Werkzeug] Ngram Viewer

Von Kristin Kopf

Beim Lan­guage Log wurde ja schon aus­führlich über das neuste Google-Spielzeug berichtet – man kann damit in einem Kor­pus, das einen Auszug aus Google­Books darstellt, nach Wörtern oder Wortket­ten suchen und sich ihren Häu­figkeitsver­lauf anzeigen lassen. Dabei wird die Gebrauchs­fre­quenz errech­net, indem das Gesuchte (das n‑gram, wobei n für die Zahl der Wörter im Such­be­fehl ste­ht) durch die Gesamt­wortzahl des entsprechen­den Jahres geteilt wird.

Die Sache ist für uns aus vie­len tausend Grün­den prob­lema­tisch: wilde Textsorten­zusam­menset­zung des Kor­pus – aber für Englisch gibt es immer­hin Unterko­r­po­ra wie Fic­tion, Amer­i­can Eng­lish und British Eng­lish –, die Kor­pus­größe vari­iert stark, d.h. Funde zu einem rel­a­tiv frühen Zeit­punkt (z.B. 1800) schla­gen stärk­er zu Buche als später (z.B. 2000), auch wenn nor­mal­isiert wurde, …

Messer, Gabel, …

Ein paar mögliche Prob­leme habe ich mal mit der Suche nach “Messer,Gabel,Löffel” für 1900 bis 2000 durchge­spielt. Man kön­nte hier den Ein­druck erhal­ten, die Gabel trete am sel­tensten auf und das Mess­er sei enorm viel häu­figer (alle Dia­gramme führen direkt zur entsprechen­den Suchan­frage mit größeren Darstellungen):

Weit­er­lesen

(Un)mögliche Sätze

Von Susanne Flach

Ich mag ja den sub­tilen Humor der Lin­guis­tik. Im Prinzip geht es im fol­gen­den Zitat um den Unter­schied zwis­chen möglichen und wahrschein­lichen bzw. attestierten Konstruktionen.

Syn­tac­ti­cians dis­cuss sen­tences which are pos­si­ble but not nec­es­sar­i­ly occur­rent. Only in rare cas­es do they lim­it them­selves to actu­al­ly attest­ed sen­tences. Most syn­tac­ti­cians would find the fol­low­ing exam­ple to be a per­fect­ly well-formed sen­tence, even though it has, I take it, nev­er occurred in lan­guage use and is unlike­ly to. […] The Min­is­ter of Edu­ca­tion announced that a sum of forty mil­lion dol­lars per year was being set aside to boost research in Lin­guis­tics, par­tic­u­lar­ly Mor­phol­o­gy, over the next ten-year peri­od. (meine Her­vorhe­bung) (Bauer 2003: 77)

Übri­gens rechne ich mich der hier qua­si unter­schla­ge­nen Frak­tion zu. Ich halte viel von Kor­puslin­guis­tik, also der Diskus­sion von Wörtern oder Sätzen, die auch tat­säch­lich doku­men­tiert sind. Der Beschrei­bung und Analyse der gesproch­enen oder geschriebe­nen Sprache geht natür­lich immer auch erst eine Betra­ch­tung der Möglichkeit bzw. Gram­matikalität voraus: so gese­hen ist der her­vorge­hobene Satz vol­lkom­men kor­rekt, er wird nur ver­mut­lich nie gefall­en sein (oder fallen).

Aber schön wär’s. Also das mit den 40 Millionen.

Bauer, Lau­rie. 2003. Intro­duc­ing Lin­guis­tic Mor­phol­o­gy. 2nd Edi­tion. Edin­burgh Uni­ver­si­ty Press.