26 Juni 2014

Wie kann eine Datenbank für Inhaltsorientierte Zuordnung von Nachrichten und Initiativen aussehen?

In der Piratenpartei ist alles transparent, nur man wird nicht darauf aufmerksam wenn sich was tut. Klar es gibt Seiten - unter anderem auch Google - dort kann man einen Benachrichtigung einstellen, wenn die Suchmaschine Webseiten findet, die einem vorgegebenen Suchkriterium entspricht. Das Problem: Es macht Arbeit es einzustellen und man muss sich überhaupt mal überlege, wie ich die Einträge erkennen will die mich Interessieren. Dieses Vorgehen ist aber sehr viel Aufwendiger als wenn man einfach einstellt wie Viele Dokumente man pro Zeiteinheit haben will und dann genau die Anzahl auch bekommt. Die Auswahl erfolgt einfach nach der größten Wahrscheinlichkeit für eine Übereinstimmung mit den vom Parteimitglied erstellten oder gesammelten Texten.

Versuch einer Therapie der ALU Hüte

Wann immer ich solche Optionen anmahne, um die online Parteiarbeit endlich mal effektiver zu machen, taucht das Panikobjekt Gesinnungsdatenbank auf. Ich habe jetzt ein Programm Open Source Publiziert, mit dem ich seit über 15 Jahren die Codierung und die verwendete Sprachen von Dateien für mein Usenet Portal automatisch bestimme. Intelligent encoding identification detection kann auf Sourcefork heruntergeladen werden.

Das Prinzip ist, das für jedes mögliche Ergebnis des Ratings eine Datei mit 216+1 32 Bit Zahlen gepflegt wird. Diese werden Adaptiv durch Beispiele mit bekannten Label aktuell gehalten.

ieid -r Deutsch deutschertext1 deutschertext2 ...
ieid -r Englisch englischertext1 englischertext2 ...


Kann auch nacheinander erfolgen, wobei die Quellen der Dateien relativ egal ist, so das ein "Verteilungsprofil" mit fortlaufenden Streamers wie RSS, Twitter oder Facebook aktuell gehalten werden kann.

ieid -r Deutsch deutschertext1
ieid -r Deutsch deutschertext2
...
ieid -r Englisch englischertext1
ieid -r Englisch englischertext2
...


Dann kann man naher mit

ieid welche-sprache-hat-die-datei


Liefert dann Englisch oder Deutsch je nachdem in welcher Sprache welche-sprache-hat-die-datei abgefasst ist. In jedem Fall ist dieses Ergebnis einer der -r werte die vorher gelernt worden sind. Es können prizipiell unbegretzt viele Varianten gelernt werden, wenn pro Variante genug Daten vorliegen. Mit

ieid -a -A liste.txt welche-sprache-hat-die-datei


Bekommt man in der Datei liste.txt ein Liste mit dem Logarithmus der Wahrscheinlichkeit, das der Text welche-sprache-hat-die-datei unter den jeweiligen Verteilungsmodellen zufällig entstanden ist. Damit lassen sich die n Besten Lösungen bestimmen für ein Massagerouting für Abstimmungen nach dem Modell der Geburt und Todeskette bestimmen.

Um die Inhalte einzelnen Parteimitgliedern zuordnen zu können, müssen aus den Datenstömen mit der Software ieid die Dateien mit deutschen Texten extrahiert werden, dann muss die festgestellt Codierung in eine Einheitscodierung gewandelt werden - typischerweise wäre das plaintext utf-8, um dann anschließend in einem auf leicht abgewandelten Programm eine Nutzer Zugeordnet durchzuführen. Die Adaption ist nötig, weil das ieid Programm jetzt darauf optimiert ist, die Eigenheiten von Sprachen und Codierungen herauszuarbeiten und das möglichst unabhängig von Inhalt. Will man auf den Inhalt abheben, brauch man andere Klassen für den Übergangskern, ist aber für einen Mathematiker kein größeres Problem, das anzupassen.

Aluhüte mögen sich das Verzeichnis .ieid ansehen, und Festellen, das von den Eingelesenen Texten nichts übrig bleibt außer Koeffizienten, so das von einer Gesinnungsdatenbank als Sammlung politischer Äußerungen keine Rede sein kann. Mit den Daten kann nur die Potentielle Telvanz bestimmt werden. Aber es ist eben nicht mehr Möglich, festzustellen welche Aussagen der Nutzer Wann, Wie in welchem Kontext gemacht hat.

Nachtrag 15.07: Wegen Irritation in Zusammenhang mit Downloads von Sourceforge hier die "Offiziellen" SHA256's:

Pogramme:
sha256sum *
4ca28828a9620d07c87418dde61d1d085e7d901794050d43582e7889883864b9  ieid.c
878509607d3ffdda80c48400d19ae33c9b5f182e72df5f6ec91fa8b17376905b  ieid_convert
0a11e3670afa30f09a50168766fd95605d96f80a8b3acfc8ce0ca43ad9aeccc2  Makefile

Datensatz zum ermitteln der Codierung eines Textdokuments:
sha256sum *
01926d1f21ce2ea27c9e6b1af2afff28d23370fbcfd552048a7bff36c717514a  big5
a5693f52d7dfb305bb134be07e1b142a382668fba2924de4617db3e19744dbb0  cp-1250
6abb5d2eac3e0d06abc112ff6bbd1f861b5648a1298174dd195f96f52bb64f70  euc-jp
d2d1d5f869f9876c593934b51d4ed002b3c8eb0b8b4fff58014499bcdd1ea7d8  euc-kr
06a289994c1db11d570ffbbba9a4002323ba18bd8975a7f7a1b90cc4b383429b  euc-tw
b1541e2c4bae319cb9b5575b68de5bfaadb4fca0b143431e5be9674a7678ce5a  gb2312
94a0d6f8590edf890673c0e5f489e49bc62cf3fb62f7570e09f02d398f9dd0c3  iso-2022-cn
2ba624b00706c836a4d614c2d2a17a7030efe836c3af8efefc84ad044325830d  iso-2022-cn-ext
9ba02d8a85b6d5deb3f75d1b140f00def3ff19608591c24768024779c5a029f8  iso-2022-jp
b659684009f4deb5bdf5133cc13ee7acbe03edfa455c5163f7ddc0c8ec66be5d  iso-2022-kr
1411b3945c98b36a8f40c02454bb66bb0afbe11285a2683ee481a262ad962b01  iso-8859-1
36e5260be31d3d7759b84eabe1263bb860211c8df30f2c3aff9e5c74272f9363  iso-8859-10
30938d76bebd42e5af7be7d64d6c1688b10bc934e44d60bbc78512bd5dc72b39  iso-8859-11
f539ecf4c202ec9c109611e9d12aef5baf3e452583d9965c38959a631491b9bd  iso-8859-13
0980269cd8c2c9e4fad2ec4bfdae539ceb9346f964e8fac37165b63179120410  iso-8859-14
859275748176775b1de99e33207a30b97503b690f10a53322061f65c093ae37e  iso-8859-15
59d12d4de33873e02d466f936149bfb8dc3a0a5d5721eb3fea78c308f238dc0f  iso-8859-2
d75bbffc11f1ce243061abfe59e983c2ee19aa78af4dbb9f09903e96d4e7b761  iso-8859-3
879cb171e833f6d2affeb045bb9f848d3478a04ef9277c0dde15f117293c4376  iso-8859-4
53072abf79a63876f33f7fd5f123792177ee79c2f18a59051233f72f98a5459c  iso-8859-6
1968e5aafbadc02b3429ae7c7228f01cb41f26f81c4e91aa24078ef01a8c59df  iso-8859-7
b0123f474116d3823ebd26408abd0472fb79c1d7f806788c63ddde960e9fc351  iso-8859-8
7d4f89f6e8f894b56688ea99a1e903ed1471e4afe869101f2cd86043a0292c3e  iso-8859-9
adf986a08572b3a62fcf890b766486054ce418a659d2791bd56bf3cb9ee2d142  koi8-r
b60c9168996f3e472602cb038cf3cc15965925410a9153c7710ca0f8d4cdce57  koi8-u
30abea8f5e3bb17369ed8eadaa72be0390fb90c18c2a1b8d7c8884280fce78dd  sen_850200_b
a168ce76b5cc8ad673c5e2bc1517d3280919581ca68f91afd78e271a9471901b  utf-7
94c436bf9e5468a75d79cca7bee9aa39caf150d5bc8244b3562fa61dc0ac35c1  utf-8
02f514243925a5b73c01540d99c3641e68d16fb6a7239e892b5e00e932128b1c  viscii
6fe12c7bc7bdc5e9cb73cc6e4d035120751fc5576b9f767ea2c219d3606c65c5  windows-1250
65ab62bf658c36d57ac2f3b2ca680290eca03fd791c6b2d38f2a0868b9128efe  windows-1251

Keine Kommentare:

Kommentar veröffentlichen