Open Data, Machine Learning e Biblioteche

seminario a cura di MLOL e Mediatech Group.

Milano, 7 novembre 2016, Biblioteca Sormani

__________________________________________

Marco Goldin

Cosa fare con il machine learning in biblioteca?

Perché parliamo di machine learning

Classificazione

Modelli predittivi

Modellli descrittivi

In poche parole...

Machine learning > Machine classification

Classificazione!

Il termine classificazione viene utilizzato per varie attività che si possono ricondurre alla gestione delle conoscenze.
L’attività di classificazione è propria dell’essere umano. Molte classificazioni si incontrano nella vita quotidiana, nelle opere di riferimento come i trattati, i cataloghi, le collezioni, gli atlanti non necessariamente geografici e le opere enciclopediche.
In questi raccoglitori di conoscenze si possono individuare molti esempi significativi di classificazioni e queste constatazioni mostrano che le classificazioni svolgono ruoli di grande importanza nella organizzazione e nella gestione delle conoscenze.
In statistica, con il termine classificazione si intende l’insieme delle attività che, facendo uso di un algoritmo di analisi dei dati, individuano una rappresentazione di alcune caratteristiche di una entità da classificare (oggetto o nozione) e le associano ad una etichetta classificatoria.

Massimo Aria

Associate Professor in Statistics for Social Sciences

PhD in Computational Statistics

Dept of Mathematics and Statistics

University of Naples Federico II

Knowledge extraction

Knowledge extraction is the creation of knowledge from structured (relational databases, XML) and unstructured (text, documents, images) sources. The resulting knowledge needs to be in a machine-readable and machine-interpretable format and must represent knowledge in a manner that facilitates inferencing.

Wikipedia

Il modello biblioteconomico

Library classification is an aspect of library and information science. It is DISTINCT from scientific classification in that it has as its goal to provide a useful ordering of DOCUMENTS rather than a theoretical organization of KNOWLEDGE.

Ranganathan (1971)

Il modello scientifico

dall'analisi alla tassonomia

Dai dati alle "caratteristiche" (features)

Nell'era dei dati è ora possibile sperimentare nuovi modelli.

  • Classificazione non supervisionata
  • Classificazione supervisionata

Un esempio... conversazionale...

Le biblioteche digitali sono conversazioni Non biblioteca digitale, ma biblioteche digitali, non un sistema, una grande narrazione sistematica, ma tante conversazioni tenute insieme da un linguaggio comune, da una struttura comunicativa basata sull'assunzione di impegni fra comunità diverse per pubblici diversi.

Manifesto per le biblioteche digitali (AIB. Gruppo biblioteche digitali)

E poi... lui...

Gordon Pask

Conversation Theory

la teoria dietro il modello di apprendimento...

Conversation Theory: Applications in Education and Epistemology, Amsterdam, Elsevier Publishing Co., 1976.

Le conversazioni sono documenti?

  • Sì.
  • Non per come la biblioteconomia intende tradizionalmente il termine "documento".
  • O meglio, non del tutto.

...è complicato...

Dicevamo...

Knowledge extraction

Knowledge extraction is the creation of knowledge from structured (relational databases, XML) and unstructured (text, documents, images) sources. The resulting knowledge needs to be in a machine-readable and machine-interpretable format and must represent knowledge in a manner that facilitates inferencing.

Wikipedia

Le biblioteche digitali integrano le comunità.
Le biblioteche digitali realizzano l'integrazione funzionale dei servizi offerti da molteplici comunità: archivi, biblioteche, musei, istituzioni della formazione e della ricerca, pubblica amministrazione, industria culturale, industria delle tecnologie dell'informazione e della comunicazione.

Manifesto per le biblioteche digitali (AIB. Gruppo biblioteche digitali)

Sperimentazione

Approccio generalistico

Le pagine Facebook del Comune di Milano e delle Biblioteche milanesi

Dalla conversazione alla classificazione attraverso il machine learning, la classificazione non supervisionata e la semantica computazionale

continua su github...

Grazie!