Toolbox
  • Printable version
 
Toolbox
LANGUAGES
Language
Personal tools
Categories
Wikipedia Affiliate Button
 

WissensManagement

From BrightByte

Jump to: navigation, search
  • Wissen enthält Fakten
  • Abstrakta als komplexe Objekte / Cluster
  • Beziehungen/Relationen => gerichteter, bezeichneter Graph
  • Unterscheidung von Wissensbasen nach:
    • Grad/Granularität der Formalisierung
    • Umfang (Grössenordnung)
    • Ziel (Grundlagenforschung bis Expertensystem)

Contents

CyC

  • Ontologie (Basisontologie + Domains)
  • Anwendung:
    • Integration von Datenbanken (Context-Switching => "Übersetzung" von synonymen Bezeichnern, etc)
    • Info-Retrival
    • AI / Expertensysteme
  • Anwendungsfelder:
    • Spiele und Simulationen
    • Service-Negotiation
    • Übersetzung/Spracherkennung
  • Features:
    • Guided Integration of Structured Terminology (GIST)
    • Natürlichsprachliches Interface (englisch): CycNL
    • Microtheories zur Strukturierung der Knowledgebase.
  • Knowledge-Base aus Objects (Vokabular) und Assertions (Axiome)
    • Monoton (?!), Konsistenzerhaltung
    • Regeln zu folgerung neuen Wissens
  • Prädikatenlogischer Kalkül, mit All- und Existenzquantor.
  • Abfragesprache CycL: Ähnlich KIF (siehe unten), Syntax ~ Lisp, Struktur ~ PL1; Konstanten, Variable, Prädikate, Operatoren
    • (#$LogAnd (#$headOfGovernmentOf $x $y) (#$hasAttributes $x #$Elected) (#$northOf $y #$Equator))
    • Funktionen/Mappings
    • Macros (insb für die definition neuer Regeln: (relationAllExists mother Animal Animal)
    • Meta-Prädikate zur sicherung der Eigenschaften von Funktionen und Prädikten: arg1isa (typ des ersten arguments)
  • Strukturierung durch Relationen
    • primäre Hierarchie durch isa (instance) und genls (subclass)
    • "Collections"


KQML

  • => Sprechakte
  • Content Layer
    • Inhalt, meist KIF
  • Message Layer => Wrapper
    • Nachrichten-typ (query, answr)
Basic query evaluate, ask-if, ask-about, ask-one, ask-all Response reply, sorry Generic informational tell, achieve, cancel, untell, unachieve Multi-response query stream-about, stream-all, eos stream/push Generator standby, ready, next, rest, discard, generator iterator/polling Capability-definition advertise, subscribe, monitor, import, export Networking register, unregister, forward, broadcast, route
    • Format/Sprache des Contents (KIF)
    • Domain (World), Topic
    • reply-with: "Betreff" für Zuordnung der Antwort.
  • Communication Layer => Routing, etc
    • ID
    • Sender, Empfänger
  • Basic Query
    (ask-one message
       :sender joe communication 
       :content (PRICE IBM ?price) content 
       :receiver stock-server communication
       :reply-with ibm-stock communication
       :language LPROLOG message
       :ontology NYSE-TICKS message
    )
    (tell 
       :sender stock-server communication
       :content (PRICE IBM 14) content
       :receiver joe communication
       :in-reply-to ibm-stock communication
       :language LPROLOG message
       :ontology NYSE-TICKSmessage
    )
 

KIF

  • prefix notation for predicate calculus with functional terms and equality.
  • Ähnlich Cyc-Syntax
  • Ontologie-Sprache - Anforderungen:
    • *Clarity*: Kontext-Unabhängig und Objektiv. Vollständige Def (notw und hinr) besser als unvollständige.
    • *Coherence*/Consistency: Korrektheit, Inferenzrelation, aber auch Übereinstimmung mit nicht-formaler Def (Dokumentation).
    • *Extensibility*: allgemeinheit und erweiterbarkeit; monotone Erweiterbarkeit => ohne Änerung der Basisdefinitionen.
    • Minimal encoding bias: Wissensrepräsentation ohne Rücksich auf die eigenschaften der Implementation/Sprache.
    • Minimal commitment: allgemeinheit, möglichst wenig Einschränkungen (Axiome). Schwächste Theorie (viele Modelle).

WordNet

  • Unterscheidung zwischen Wörtern und Wort-Bedeutungen.
  • Objekte: Nomen, Verben, Adjektive, Adverben
  • Relationen:
    • Synonym (same-as)
    • Hyponymy / Hypernymy (is-a)
    • Meronymy / Holonymy (has-a/part-of)
    • Antonymy (is-opposite/is-not)
    • => cause, derive
  • Toplevel Entities:

{act, action, activity} {animal, fauna} {artifact} {attribute, property} {body, corpus} {cognition, knowledge} {communication} {event, happening} {feeling, emotion} {food} {group, collection} {location, place} {motive} {natural object} {natural phenomenon} {person, human being} {plant, flora} {possession} {process} {quantity, amount} {relation} {shape} {state, condition} {substance} {time}

TopicMaps

  • ISO/IEC 13250:1999
  • Topics
    • Topic Names (basename = voller Name, displayname = kurz, sortname = sortierung)
    • Topic Types (is-a): Klassifikation
  • Topic Occurrences = Vorkommen in externen Ressourcen
  • Topic Associations (binäre relationen: "liegt in", "autor von", etc) => Symmetrie, transitivität, ...
  • Scopes (namespaces)
  • Public Subject Descriptor (Identifikationsattribut: PLZ, etc)
  • Facets: beliebige attribute (nicht typisiert)

Colocation

Arten von Graphen (resp. Relationen):

    • Symmetrisch: AxB => BxA =
      • Synonyms
      • Cohyponomy (Geschwister in der generalisierung), Ähnlichkeit
      • Elements of Sets
    • Antismmetrisch: AxB und BxA => A=B [[>=/<=]]
      • next-neightbour-collocations *?!*
    • Transitiv: AxB und BxC => AxC [[>/<]]
      • is-a, part-of, etc
      • auch Synonyme, Cohyponomy

Erzeugung von Graphen

  • Kollokation (Wortnähe)
    • next-neighbour-kollokationen =>
  • Pattern-Matching
    • Stark von der sprache anhängig (propositionen)
    • (profession) * (last name) => * = (first name)
    • (class name) like *
  • abgeschwächt: link/rechts-colocation

Analyse von Graphen

  • Feature-Vector: Collokativer Kontext (oberhalb einer Signifikanzgrenze)
  • Ähnliche Features => irgendeine Beziehung ist wahrscheinlich
  • Clusterring Algorithmus:
    • Finde die beiden Items (zunächst Wörter) A und B mit den ähnlichsten Features.
    • Fasse die beiden in ein komplexes Item C zusammen (Wortgruppe); (Features:= "joint collecation")
    • Fertig wenn keine ausreiched ähnlichen Paare mehr vorhanden sind.
    • => gemeinsame Features => "Wichtige" Eigentschaften.

Auswertung: Kombinieren von Resultaten

  • Ähnlicher Kontext aber schwache Colocation => cohyponymie (gem. überbegriff), Synonyme. ~
  • Ähnlicher Kontext und starke Colocation => Phrase? (besonders bei Colocationsentfernung > 1)
  • Unähnlicher Kontext und starke Colocation => Phrase?
  • "konkretere" Resultate (z.B. durch Pattern Matching) überwiegen/ergänzen unkonkrete.
  • wenn AxB gilt und B~B' ist, dann gilt vermutlich auch AxB' *falls* es weiter Hinweise auf eine Verbindung A?B' gibt.
  • wenn p(A) gint und p eine wichtige (meist mit B gemeinsame) Eigenschaft ist, und es gilt A~B, dann gilt vermutlich p(B)
    • Hafenstadt * => Hafenstadt ist eine Eigenschaft von * und * sind ähnlich => alle *-ähnlichen sind Hafenstädte.
  • Gemeinsame Colocationen lassen of Domain schliessen.


Wortschatz

  • Beziehungsgraph, basierend (zunächst) auf Kolokationen
  • Knoten (Wörter/Cluster) haben sematische Primitive (Eigenschaften)
  • Kanten (Beziehungen, Kolokationen) haben sematische Relationen
  • Aus bestehenden Primitiven/Relationen werden neue gefolgert - betrachtet werden immer 3 Knoten mit ihren 3 Beziehungen:
    • Knotenschluss: vorhandene sem. Primitive an 2 der Knoten => neue Primitive am 3ten Knoten.
    • Kantenschluss: vorhandene sem. Relationen an 2 der Kanten => neue Relation an 3er Kante.
    • => Sematische Regeln notwendig.
  • Iterative anwendung der Schlüsse => Fehler accumuliert
  • Händische annotierung als Basis => gleichmäßige Verteilung notwendig.
  • Beispiel: Sachbereiche aus Personenkolokation gschliessen:
    • Wähle K, die top-N Personenkolokationen von X mit mindestsignifikanz s.
    • kommt mehr als 1 Sachgebiet in K vor, versuche neues X.
    • komt das (eine!) Sachgebeit S mindestens k-mal in K vor, so gehört X zu S.
    • Wiederhole bis keine neuen Ergebnisse.
    • Typische WErte für (s,N,k): (10,10,3); (10,30,3); (10,50,3); (3,10,3); (3,20,3);
    • Ohne Minedstsign.: (0,20,3); (0,10,3); (0,3,3); (0,20,2); (0,10,2); (0,3,2).
    • => mit und ohne Minedstsign. führ zu ähnlich guten, aber unterschiedlichen Ergebnissen!
    • => Abwechselndes ausführen der beiden Varianten kommt zu besserem Ergebnis (Faktor 1.3)!''
  • Tripel-Arten (Dreiecke):
    • Kohyponym-Gruppen: kohyp(A,B), kohyp(B,C), kohyp(A,C) => gemeinsamer Oberbegriff, Domain
    • Kohyponym-Paar: kohyp(A,B), x(B,C), x(A,C) => gleich bezüglich x (A=Rügen, B=Usedom, C=Insel, x=is-a)
    • Flexionspaar: flex(A,B), x(B,C), x(A,C) => A und B haben die selbe Bedeutung (nur gramm unterschied). (A=fahren, B=gefahren, C=schnell, x=adv-best)
  • Schließen mit Kohyponymen
  • Gemeinsames Kohyp: kohyp(A,C) und kohyp(B,C) => kohyp(A,B)
  • Allgemeiner:
    • R eine von Kohyp, Unter, Eigenname, isttypSubj, isttypObj, IsttypOrt (mit einschr.), istChef.





    • Q eine von Kohyp, Syn, Anto.
    • XrZ und YrZ => XqY
    • XrZ und kohyp(X,Y) => YrZ
  • Lokalter Kanten-Algorithmus (Plausibilitätsbewertung)
    • Knoten erhalten Bearbeitungspriorität (nach Anzahl der bekannten Relationen für jeden Knoten)
    • Bilde V-Formen für Relationen für jeden Knoten.
    • Für Knoten mit hoher Priorität, bewerte die "gegenüberliegende" Kante neu:
    • Addiere die Plausibilitäten verschiedener Schüsse zu einem Wert x.
    • ist x > k,
      • weise der Kante die Plaus. x zu
      • und erhöhe die Priorität der Endpunkte um 2 (neubewertung angrenzender Kanten)
      • und setze die Priorität des gegenüberliegenden Knoten auf 0
  • Globaler Kanten-Algorithmus
    • Annotationsschritt: lokaler Algorithmus für alle Knoten, die schon zwei bewertete Kanten haben. (bewerte gegenüberliegende)
    • Die neuen Bewertungen werden gesammelt (mehrere (2?) pro Kante möglich)
    • Bewertungsschritt: Bewertung wird (von Hand?) überprüft, nach Anzahl/Sicherheit/Widersprüchlichkeit der vorgeschlagenen bewertungen.
  • Für ein bereits bewertetes Dreieck: jede Bewertung kann entfernt werden - sie ergibt sich automatisch aus den angrenzenden Bewertungen!
    • Steh-auf-Männchen effekt, Konvergenz, Robustheit
  • Wortschatz bietet diverse Tools für
    • Management sematischer Schlussregeln (automatische annotation)
    • Manuelle Annotation / Überprüfung vorgeschlagener Annotationen/Bewertungen
    • Grafische Darstellung des Netzes
  • sematisches Parsen
    • Find bekannte primitive für Wörter (ist/ist-ein/hat...)
    • Finde bekannte Kolokationen für Wortfolgen, nutze deren Sematik (wähle nach signifikanz)
    • Betrachte annotierte Dreiecke über Wörter im Satz

Text summarisation

  • Methoden der Abstraction: information retrieval, document clustering, information extraction, visualization, question answering, text summarization
    • Abstracts: a concise summary of the central subject matter of a document [[[Paice90]]].
    • Summaries: Indicative, informative, and critical
    • Extracts (representative sentences)
  • Simge-Document / Multi-Document
  • General / Query-Specific
  • headlines, outlines, minutes, biographies, abridgments, sound bites, movie summaries, chronologies, etc.
  • 3 Phases: content identification, conceptual organization, realization
  • 3 Types of Factors (Sparck Jones): Input factors (source form, subject type, unit), Purpose factors (situation, audience, use), Output factors (material, format, style)
  • Abstracts... promote current awareness; save reading time; facilitate selection; facilitate literature searches, improve indexing efficiency, aid the preparation of reviews
  • American National Standard for Writing Abstracts:
    • State the purpose, methods, results, and conclusions presented in the original document, either in that order or with an initial emphasis on results and conclusions.
    • Make the abstract as informative as the nature of the document will permit, so that readers may decide, quickly and accurately, whether they need to read the entire document.
    • Avoid including background information or citing the work of others in the abstract, unless the study is a replication or evaluation of their work.
  • Extracts containing 20% or 30% of original document are effective surrogates
  • Komprimierung durch Auslassung: ganze Sätze und Absätze, oder von Satzteilen (Grammatik!).

Luhn 58

  • Pionierwerk
  • Messung der Bedeutsamkeit von Wörtern: nicht sie häufigsten, auch nicht die seltenen. Schwerpunkt liegt bei gebräuchlichen Wörtern unter der "Rauschgrenze".
  • Markiere die "signifikanten" Wörter eines satzes, behalte nur [signifikante Region] des Satzes.

Edmundson 69

  • Cueing:
    • Sigma words: "hardly", "impossible"
    • Bonus Words: "significant"
  • Title Method: Titel und Gliederungsüberschriften
  • Location method: Sätze in der Nähe von Überschriften, in der Nähe des Beginns/des Endes des Dokuments, Kapiels oder auch Absatzes.
  • Lineare Auswertung: Key (Wortwerte) + Location + Title + Cue

Paice 90

  • Versuche mit: Syntaktischen Kriterien, Key-Phrasen => nicht sehr erfolgreich
  • Spätere Ansätze: Rhetorische Struktur, Erkennung von Anaphern (Rückbezügen mit Pronomen) (intern/extern) anhand des Kontextes.

Brandow et. al. 95

  • Satzstrukturanalyse, Anaphern
  • Extrahiert Sätze mit "Signature Word". Sätze ohne werden mit einbezogen, wenn sie zwischen zwei bereits gewählten sätzen liegen.

Lin & Hovy 97

  • Satzposition gegen Position von Schlüsselwörtern. Rethorische struktur.

Salton et al. 97

  • Semantic hyperlinks: Verknüpfung von Absätzen mit Lexikalischer ähnlichkeit.
  • Zusammenfassung entlang von Pfaden solcher ähnlichkeiten.

Marcu 97-99

  • Nucelus-Satelite-Relation => relevante hintergrundinformation

Lexical chains Stairmand 96

  • Verkettung von Nomen nach Gruppe.

Barzilay and Elhadad 97

  • Baut auf WordNet auf
  • 3 Ebenen von Relationen:
    • super-stark (durch wiederholung)
    • stark (WordNet)
    • mittel-stark: abgeschwächt durch entfernung in bezugskette, etc.
    • Scoring chains: Length * Homogeneity; Homogeneity= 1 - # versch. Wörter in der Kette. Score > Average + 2 * st.dev.

ProSum

  • Profilbasiert (länge des Ergebnisses, table treatment, etc)
  • Auszüge

Microsoft Autosummarize

  • ähnlich - verkürzung in %
  • Beide basieren auf Auszügen (kein Text erzeugt), aber grammatik-sensitiv.

Multi-Text summarisation

  • Zusammenfassung mehrerer Dokumente
  • Bezug auf ein Thema/Ereignis, oder auf eine Gruppe von Themen (insb. Folge von Ereignissen)
  • Zuordnung/Bezüge einzelner Textsegmente (Absätze, Sätze)

Mani & Bloedorn 97,99

Carbonell & Goldstein 98

  • Query-based summaries
  • Maximal Marginal Relevance (MMR) => minimiert überlappungen
    • <html>MMR = argmaxDi∈R\S [[λ (Sim1(Di,Q) - (1-λ) maxDi∈S Sim2(Di,Dj)]]</html>
    • Wobei: C=Documente, Q=query, R=IR(C,Q,Θ), S=bereits analysierte Dokumente, Sim=Ähnlichkeitsmetrik
  • Law of diminishing returns
    • zusätzliche Resourcen verbessern den Output, aber:
    • ab einem gewissen punkt fällt ide Verbesserung durch eine zusätzliche Ressource ab.

Radev et al. 00 (MEAD)

  • Centroid-Based (für jeden Cluster, wähle den "Repräsentanten" mit dem besten score)
  • sentence utility and subsumption
  • => Topic detection and tracking initiative
  • Verktorbasierte Ähnlichkeitsmetrik
    • Wörter/Phrasen als Dimensionen eines Raumes => Positionierung eines Textes nach Affinität zu dem Wort.
    • Distanzmessung im Raum, insbesondere Winkel <=> Cosinus-Maß
    • Einsortieren des Doks in bestehende gruppe bei sim>=T, sonst neue Gruppe.
  • 'MEAD
    • INPUT: Cluster of d documents with n sentences (compression rate = r)
    • OUTPUT: (n * r) sentences from the cluster with the highest values of SCORE
    • <html>SCORE (s) = Σi (wcCi + wpPi + wfFi)</html>

Barzilay et al. 99

  • Theme intersection (paraphrases)
  • common phrases across multiple sentences
  • Parsing into predicate-argument structures (74% identified)

"Knowledge-Rich"

Radev and McKeown 98 - Texterzeugung

  • Basisdaten: Template-Datenbank und Datenfelder/Werte (aus versch. Quellen, evtl händisch eingegeben.)
  • Synthese einer logischen Struktur, absätze, etc
  • Syntaktische Synthese des Textes.
  • Automatisches einfügen von (Zeitl.) Bezügen und Vergleichen.
  • Entwicklung erkennen => änderungen an einzelnen "Slots" in Meldungen der selben Quelle
  • Wiederspruch/Perspektive => Unterschiedliche aussgen verschiedener Quellen.
  • Generalisierung (Zeitlich/Räumlich)

Situationstheorie

  • Infos und Infone
  • Formale Sprache zur Beschreibung semantischer Relationen.
  • Infone der Form (Relation, arg1, ..., argn, ort, zeit, (wahr|falsch))
    • Args können selbst Infone sein
  • Situation => Menge von (gerade gültigen) Infonen
  • Handlungen => Folgen von Infonen (Tätigkeiten als Zustände)
  • das Maß für Verständnis ist der Grad, indem sich ein Sachverhalt aus einer Menge von Infonen Rekonstruieren lässt.
  • Abgleich neuen Wissens mit dem bekannten (Weltwissen)
    • Bekannt, wenn keine neuen Infone => wissen ändeert sich nicht
    • Neu wenn Infone hinzugekommen => wissen wird monoton erweitert (konsistenzerhaltung)
    • Info wird als bedenklich eingestuft wenn sie Widersprüche erzeugt => abgelehnt.
      • Abschwächung: Prüfung nur bis zu einer gewissen ebene, widerspruch muss "offensichtlich" sein.
      • Tieferes Nachdenken wenn angebracht, z.B. bei häufigen widersprüchen.
  • Datenaufnahme: Beobachtung unsicherer Quellen (hoher schwellwert), Belehrung durch "Meister"
  • Der Neuigkeitswert (Belehrungseffizienz) eines Textes ist die Anzahl der neu erzeugten ("geglaubten") Infone
    • Der Neuigkeitswert wird pro Quelle gesammelt
  • Die Belehrungskonsistenz besteht in der Widerspruchsfreiheit.
    • Daten passen Gut => hoher Neuigkeitsgrad und hohe Konsistenz
    • Daten sind indiferent zum bisherigen Wissen => keine Verbindung => Hoher Neuigkeitswert, hohe Konsistens, geringe Verknüpfung
    • Daten sind widersprüchlich => hoher Neuigkeitswert, aber widersprüche.
  • Umgang mit widersprüchen:
    • bei Beobachtung: ignorieren der neuen Informationen
    • bei Belehrung: rückfrage
    • Möglicherweise nur "verbieten" der direkten Verbindung zu einem kritischen Infon - geht wegen Prüfung mit geringer Tiefe.

Sprache

  • Sender/Empfänger
  • Sender-Kontext + Ausrichtung auf Empfänger.
  • Empfänger-Kontext, Interpretation
  • => Es gibt keinen tatsächlichen Informationsgehalt.
  • => übereinstimmung durch Redundanz (auch wegen Störungen, etc)


Story Level Understanding

Elementare handlungen -> Schank and Rieger: conceptual dependency theory -> Scripts

  • Handlungsprimitive:
    • ATRANS - Transfer eines Abstraktums (z.B. Besitz) (global -> ZUSTAND)
    • PTRANS - physischer Transfer (global -> ZUSTAND)
    • MTRANS – transfer of mental information between animals or within an animal.
    • MBUILD – construction of new mental information.
    • CONC: Über etwas nachdenken bezüglich bereits vollzogener Konzeptionalisierungen.
    • PROPEL – application of physical force to an object.
    • MOVE – relocation of a body part of an animal by the animal.
    • GRASP – handling of an object by an animal.
    • INGEST – the consumption of an object by an animal.
    • EXPEL – the discharge of an object by an animal.
    • SPEAK – the act of speech (mit MTRANS)
    • ATTEND - focus senses toward a stimulus (mit MTRANS)
    • DO - für nicht-spezifizierte Aktionen
  • Zusätzliche soziale Aktionen:
    • AUTHORIZE: erlauben
    • ORDER: befehlen
    • DISPUTE: ein Wechselgespräch führen
    • PETITION: erbitten
  • Actions result in state change
    • States can enable/disable actions
    • Both states and actions can initiate mental states
    • Mental states are reasons for actions
  • Zustände (bewertbar -10 ... +10)
    • POSS: Besitz, Eigentum, Verfügung
    • PSTATE: äußerlicher Zustand eines Physikalischen Gegenstandes
    • HEALTH: Gesundheit
    • MSTATE: mentaler Zustand, Stimmung (gebrochen - niedergeschlagen - normal - froh - glücklich)
    • ANTICIPATION: Erwartung, ängstlich - nervös - hoffend - sicher
    • AWARENESS: Bewußtseinszustand (tot - bewußtlos - schlafend -
    • BE für zuweisung
  • Kausale Zusammenhänge
    • result in: ACT -r-> STATE: Ein akt kann den Zustand verändern
    • Enable: STATE -E-> ACT: Ein STATE kann einen ACT bewirken/erlauben
    • Disable: STATE -dE-> ACT: Ein STATE kann einen ACT beenden/verbieten
    • Initiate: STATE/ACT -I-> MSTATE: Ein STATE (oder ACT) kann einen MSTATE erzeugen
    • Reason: MSTATE -M-> ACTION: Ein MSTATE kann ein Grund für eine ACTION sein (Reason)
    • Zusammensetzungen:
      • result enables: ACT -rE-> ACT: kurz für ACT -r-> STATE -E-> ACT
      • Initiates Reason: ACT/STATE -IR-> ACT: kurz für ACT/STATE -I-> MSTATE -R-> ACT
  • Granularität ist wichtig
  • Ausnahmebehandlung
  • Typen von Abweichungen
    • Hindernis: Voraussetzung für eine folgende Handlung im Script ist nicht erfüllt
    • Fehler: Wurde eine Handlung anders als üblich (d.h. mit anderem Effekt) ausgeführt oder an einem anderen Objekt?
    • Rezept: Wird eine korrigierende Handlung beschrieben? Z.B., um ein Hindernis zu umgehen.
    • Wiederholung: Wird die Wiederholung einer vorangegangenen Aktion beschrieben? Z.B. nach Fehler.
    • Reaktion: Wird eine emotionale Reaktion der handelnden Person beschrieben?
    • Ablenkung: Hat die handelnde Person jetzt ein anderes Ziel? Damit wird ein Abweichen vom jetzt gültigen Script signalisiert.
    • Erweiterung: Wird die Handlung durch die handelnde Person mit Absicht erweitert?

Spreachakttheorie

  • Eine Sprechhandlung besteht aus vier Teilen:
    • Lokution (Struktur und Äußerung),
    • Proposition (Aussage über die Welt),
    • Perlokution (beabsichtigte Wirkung).
    • Illokution (Ziel) und
      • nach John Rogers Searle:
      • Repräsentativa (behaupten, mitteilen, berichten)
      • Direktiva (bitten, befehlen, raten)*
      • Kommissiva (versprechen, vereinbaren, anbieten, drohen)
      • Expressiva (danken, grüßen, beglückwünschen, klagen)
      • Deklarativa (ernennen, entlassen, taufen)

Testverständnis

  • Nutzung von Weltwissen
    • Bezüglich des Inhalts => Schlussfolgerung, Reflektion, Prüfung
    • Bezüglich der Struktur => Beziehungen, Form, etc.
  • Nutzung von Informationen aus dem Text
    • Einzelinformationen => Erkennung + Reproduktion
    • Beziehungen zwischen Textteilen, Entwicklung => Schlussfolgerungen

Strategien und Probleme:

  • Voraussetzung: Lexicon für Flexion, Synonyme, Stop-Wörter, etc.
  • Antwort finden durch Pattern-Matching:
    • Was war die grösste Sorge des Hasen => * grösste Sorge *, dass ?A
  • Antwort finden durch Bezug/Nähe im Satz.
  • Beispiele/Schlagwörter im Text finden:
    • schnell => Sätze mit raste, hast, bald, beeilen...
  • Unterschiede/Entwicklung aufzeigen (insb. STATE/MSTATE, attribute, adjektive)
  • Auflösen von Rückbezügen auf Bezeichner (Namen, Dinge)
  • "Warum"-Fragen schwierig, wenn nicht explizit erwähnt.
  • Allgemein: Spekulationen über MSTATE kaum möglich, "Empathie" fehlt (sic!)
  • Fragen der Moral oder Essens kaum beantwortbar.

SemanticTalk/INVITE

Datenlandkarte als Explorationsmethapher sematischer Räume

  • Datenerfassung (Strukturierte und unstrukturierte Daten) weitgehend automatisch
  • Wissensverarbeitung: Themebgruppen und Bezüge, Ontologie; Teilautomatisiert/Softwareunterstützt
  • Wissensnutzung: Executive Views, Abstraktion, Visualisierung
    • Generierung anwendungsspezifischer Daten durch spezialisierte Tools:
    • Organisations-, Prozess-, und Ablaufpläne, Klassen- und Objektstrukturen, etc.
  • Ziel: Rechnergestütztes Assoziieren
  • Ziel: Wissenslandkarte und Roter Faden
    • Wiedererkennbarkeit der Visualisierung als Orientierungshilfe (sic!)
  • Wortschatz-Projekt als Quelle
  • 3 Ebenen: Welt/Wortschatz, Domain, Projekt
  • Touchgraph-Darstellung:
    • Kanten: art der Relation
    • Knoten-Farbe aus Objekt-Klasse und Kontext (gegeben, assoziiert, Roter Faden)
    • Granularität/Zoom/etc
  • Bei Textaufnahmen: Schlagwörter in der Reihenfolge des Vorkommens markieren/verbinden => Roter Faden => neue assotiationen.
  • Import/Export als DB/XML/RDF/...
  • Anwendung auch im Service-Engineering.

Web-Communities

  • Communities bilden Link-Cluster (ähnlich Communities aber z.T. als separate "Inseln")
  • "Autoritäten": viele "eingehende" Links
  • "Verteiler": viele "ausgehende" Links
  • Linkstruktur ähnlich Colocationsgraphen, Zitationsgraphen, etc
  • Betrachtet wird nur die Verknüpfungsstruktur, unabhängig vom Inhalt.
  • Graph ist sehr "dünne" (etwa 10 ausgehende Links pro Seite)
  • Einteilung der Knoten (seiten) nach eingehenden (Indegree) und ausgehenden (Outdegree) Links.
    • Erreichbarkeit / Kürzester Weg
  • Power-Law: Anzahl*K -> in-degree/K <=> in-degree*K -> Anzahl/K ; Steigung 2.1 => Pr(I(u)=k) =~ 2^-2.1
  • Power-Law: Anzahl*K -> out-degree/K <=> out-degree*K -> Anzahl/K ; Steigung 2.7 => Pr(O(u)=k) =~ 2^-2.7
  • Bipartite Cluster (Gruppe lässt sich so Teilen, dass alle aus A auf alle aus B zeigen)
  • Small world [Barabasi and Albert 99, Albert-Jeong- Barabasi 99]:
    • most pages are within 19 links of each other (aber: 75% gar nicht erreichbar)
  • Random Graphs: Shela & Spencer: 0-1-Law => "kritische Masse"
    • bei avg.deg 4 gibt es einen "Giganten" im Graph, der 90% der Kanten enthält.
    • Indegree ~ Outdegree; Exponentiell/Asymptotisch abnehmend gegen +/- inf.
    • small world: die meisten Knoten-Paare sind gut verbunden.
  • Page-Creationg:
    • "Ignorant" vs. "Plagiat"
    • => Some randome links, some copied links.
    • => Theoretisches Medell auf grundlage der Wahrscheinlichkeit der Erzeugung neuer/zufälliger Links, dem kopieren von Links, etc.
  • Gut zur Verhersage macroscopischer eigenschaften.

Campfire project

  • Automatically find and organize communities on the web.
    • Find all cores.
    • Grow cores into the full community.
    • Do IR/Categorization/Clustering etc. to organize the community space.
  • Cores: kleine Bipartite Gruppen

Verctor Space

  • Einordnung von Dokumenten in einem n-Dimensionalen "Feature-Raum"
  • Cosinus-Maß: <tex> D_cos(x,y) = \large(x,y)} \over {|x|\cdot|y| = { {\sum_{i=1}^{n} {x_i y_i}} \over { \sqrt{ \sum_{i=1}^{n} x_i2 } \sqrt{ \sum_{i=1}^{n} y_i2 } } } </tex>
  • Euklidischer Abstand: <tex> D_E(x,y) = | x - y | = \large\sqrt{ \sum_{i=1}n (x_i - y_i)2 } </tex>
  • Clustering/Klassification
  • Bewertung/Gewichtung von Begriffen/Knoten