• 検索結果がありません。

パソコンと汎用テキスト処理ツールによるドイツ語 研究の可能性

N/A
N/A
Protected

Academic year: 2021

シェア "パソコンと汎用テキスト処理ツールによるドイツ語 研究の可能性"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

パソコンと汎用テキスト処理ツールによるドイツ語 研究の可能性

著者 城岡 啓二

雑誌名 人文論集

巻 47

号 2

ページ A187‑A216

発行年 1997‑01‑31

出版者 静岡大学人文学部

URL http://doi.org/10.14945/00000740

(2)

Der Einsatz von PCs mit UNIX-like Tools zur Sprachforschung

SHIROOKA Keiji 0jksiro

@

hss.shizuoka.ac.jp)

Wollte man friiher eine computeruntersttitzte Forschungsarbeit durchftihren, arbeitete man mit einem griiBeren Computer im Computerzentrum. Man muBte dabei entweder selbst mit einer schwierigen Programmiersprache programmieren kdnnen, oder man beauftragte Fachleute mit dieser Aufgabe. Infolge der Entwick- lung von PCs (Personal Computer) gab es dann einige lexikologische und gra- phematische Pilotstudien mit PC und BASIC. BASIC ist zwar relativ leicht zu erlernen, aber doch nicht fUr Laien geeignet. Nun sind die PCs soweit fortge- schritten, daB auch Programmiersprachen wie BASIC zumindest ftir einige Berei- che unnOtig geworden sind. Man kann ietzt mit sogenannten UNIX-like Tools ziemlich viele Aufgaben ldsen.

1. UNIX-like Tools

Als UNIX-like Tools bezeichne ich alle Werkzeuge, die urspriinglich aus

UNIX stammen und auf verschiedene weise Textdateien verarbeiten (sie kiinnen auch Text Tools, DOS Tools, UNIX-style Utilities heiBen). Die Werkzeuge sind einzeln oder kombiniert einzusetzen.

1.1 Sortieren mit SORT

Mit SORT kann manZeilen einer Textdatei auf verschiedene Weise sortieren.

Zu sortieren sind sowohl Zahlen als auch normale Schriftzeichen. SortierteZahlen- daten ktinnen z. B. Grundlage der weiteren Analyse sein. Ich habe als Beispiel

dafiir Zahlendaten von ,,furniture" und ,,M0bel" sortiert und die daraus gewon- nenen Fakten analvsiert.

1.2 Frequenzlisten

Mit SORT, UNIQ, CUT, FOLD, REV, WORD, AWK kann die Hdufigkeit der Wdrter, Graphketten und Schriftzeichen untersucht werden.

-v-

(3)

1.3 Listenvergleich

Listen kann man mit COMM miihelos vergleichen. Ich habe mit COMM zwei Listen von Wtirtern, die jeweils als Grundwortschatz ftir Deutsch als Fremdspra- che vorgeschlagen wurden, verglichen.

2. Textrecherche mit GREP

GREP und Reguliire Ausdrticke dienen im allgemeinen dazu, in einer Text- datei Graphketten in der GrdBenordnung von Schriftzeichen bis Phrasen zu su- chen. Eine Art GREP ist KKC, und es ermoglicht sogar, die Fundstellen in KWIC-Format (Keyword in Context) tibersichtlich auszudrticken.

3. Untersuchungsbeispiele mit AWK

Mit AWK lassen sich auch schwierigere Aufgaben ldsen. Zur Bearbeitung einer Wortliste von mehr als 55000 Wiirtern, die urspriinglich aus drei ver- schiedenen W0rterbiichern stammen, habe ich AWK eingesetzt.Zwei Beispiele fiir die Anwendung waren:

3. 1 Sprachdidaktisch wichtige Graphketten

Im Deutschunterricht lernt man in der Einftihrung, wie man Graphketten wie ,,chtt, ,,scht', ,,stt', ,,cktt, ,,eu", ,,dtt' ausspricht. Mtissen alle Graphketten, die nicht dem Schriftbild entsprechend ausgesprochen werden, schon im Anfiingerunterricht durchgenommen werden? Gibt es keine Graphketten, die hiiufiger und wichtiger sind? Mit AWK habe ich die Hiiufigkeit der insgesamt 41 Graphketten, die aus mehr als zwei Schriftzeichen bestehen, untersucht. Als Material habe ich nicht nur die Stichwortliste der drei verschiedenen Wtirterbiicher, sondern auch eine Wortliste aus dem SPIEGEL mit ca. 93 000 Wtirtern benutzt.

3.2 Graphematische Minimalpaare: ll/rl und [b/w]

Mit AWK kann man alle graphematischen Minimalpaare aus einer Wortliste, in der jedes Wort zeilenweise steht, herausnehmen. Wenn man z. B. Minimalpaare mit der Unterscheidung von ,,1" und ,,r" an der zweiten Stelle sucht, kann man folgenderweise vorgehen: Mit dem Regularen Ausdruck /^.llr)/kann manZeilen mit ,,1" oder ,,r" als zweitem Schriftzeichen selektiv verarbeiten. Man eliminiert

-u-

(4)

dann das zweite Schriftzeichen, registriert den Rest des jeweiligen Wortes mit ,,rest: substr($O, 1, 1) substr($0, 3)" und zZihlt mit ,,arr[rest] * *". Jede Form ohne das zweite Schriftzeichen wird gezlihlt. Wenn eine Form am Ende zweimal vorkommt, bedeutet es, daB es da Minimalpaare wie ,,Blockhaus" und ,,Brock- haus", ,,bliihen" und ,,briihen", ,,flau" und ,,Frau" gibt.

Meiner Erfahrung nach ist es nicht leicht, ohne Vorkenntnisse Gebrauchs- anweisungen zu verstehen. Man muB vorher wissen, was man tlberhaupt mit einem Gerdt oder einem Werkzeug machen kann. Mein Ziel ist es daher, einen groben Uberblick tiber das, was man mit einem PC und UNIX-like Tools machen kann, zu geben. Ich habe deshalb versucht, die Leistungsfflhigkeit der Werkzeuge mit meinen konkreten Beispielen zu beweisen und damit auch mogliche Einsatzberei- che von PCs zur Sprachforschung zu zeigen Aber ich habe nicht versucht, Gebrauchsanweisungen fur die einzelnen Werkzeuge zu schreiben. Dies ist in einem Aufsatz von diesem Umfang auch nicht mdglich.

― Ⅶ一

参照

関連したドキュメント

Korves, Die Zukunft und die Zeit danach − Gedanken zu elektronischem Rechtsverkehr und elektronischer Akte, in : Buchman/Gläß/Gonska/Pfilipp/Zimmermann, Digitalisierung der

Dies gilt nicht von Zahlungen, die auch 2 ) Die Geschäftsführer sind der Gesellschaft zum Ersatz von Zahlungen verpflichtet, die nach Eintritt der

), Die Vorlagen der Redaktoren für die erste commission zur Ausarbeitung des Entwurfs eines Bürgerlichen Gesetzbuches,

Thoma, Die juristische Bedeutung der Grundrechtliche Sätze der deutschen Reichsverfussungs im Allgemeinem, in: Nipperdey(Hrsg.), Die Grundrechte und Grundpflichten

あれば、その逸脱に対しては N400 が惹起され、 ELAN や P600 は惹起しないと 考えられる。もし、シカの認可処理に統語的処理と意味的処理の両方が関わっ

経済学研究科は、経済学の高等教育機関として研究者を

Bortkiewicz, “Zur Berichtigung der grundlegenden theoretischen Konstruktion von Marx in dritten Band des Kapital”, Jahrbücher für Nationalökonomie und Statistik,

Eine andere wichtige Tendenz ist auch sichtbar geworden: Die Anzahl der Männer und Frauen im Alter zwischen 40 und 50 Jahren, die sich sexuelle Aktivitäten in der