Cassandra (database)

Questa voce sull'argomento software libero è solo un abbozzo.

Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento.

Cassandra software
Logo
Schermata di esempio
Genere	Database management system
Sviluppatore	Avinash Lakshman, Prashant Malik
Data prima versione	luglio 2008
Ultima versione	5.0-rc1 (18 luglio 2024)
Sistema operativo	Multipiattaforma
Linguaggio	Java
Licenza	Apache License 2 (licenza libera)
Sito web	cassandra.apache.org/
Modifica dati su Wikidata · Manuale

Cassandra è un database management system non relazionale distribuito con licenza open source e ottimizzato per la gestione di grandi quantità di dati.

Primi sviluppi

Il codice di Cassandra è stato inizialmente sviluppato all'interno di Facebook (per potenziare la ricerca all'interno del sistema di posta) da Avinash Lakshman e Prashant Malik.

Nel luglio del 2008 sono stati resi disponibili i sorgenti, su Google Code; dal marzo 2009 è entrato a far parte del progetto Incubator di Apache Software Foundation^[1], data in cui l'intero progetto ha iniziato a essere distribuito sotto la Apache License 2.

Cassandra fa parte dei database detti NoSQL, una categoria molto generica che indica sommariamente i database che non sfruttano la sintassi SQL e che spesso vengono anche classificati come "non relazionali".

Cassandra è tuttora utilizzato da Facebook. Tra gli altri siti che utilizzano questo database si segnalano Twitter^[2] e Digg^[3].

Descrizione

Apache Cassandra è un DBMS distribuito e open source. Si tratta di un progetto Top-Level (come anche CouchDB e Apache HTTP Server), sviluppato da Apache Software Foundation per gestire grandi quantità di dati dislocati in diversi server, fornendo inoltre un servizio orientato alla disponibilità, senza alcun point of failure.

È una soluzione NoSQL che inizialmente fu sviluppata da Facebook. Jeff Hammerbacher, che ha guidato il team di Facebook, ha descritto Cassandra come un modello di dati simile a BigTable in esecuzione su una infrastruttura tipi Amazon-Dynamo. Cassandra fornisce una struttura di memorizzazione chiave-valore, con Eventual Consistency.

Alle chiavi corrispondono dei valori, raggruppati in famiglie di colonne: una famiglia di colonne è definita quando il database viene creato. Tuttavia le colonne possono essere aggiunte a una famiglia in qualsiasi momento.

Inoltre, le colonne sono aggiunte solo specificando le chiavi, così differenti chiavi possono avere differenti numeri di colonne in una data famiglia. I valori di una famiglia di colonne sono memorizzati insieme, in quanto Cassandra adotta un approccio ibrido tra DBMS orientato alle colonne e la memorizzazione orientata alle righe.

Caratteristiche

Decentralizzato: i nodi nel cluster sono identici. Non esiste alcun single point of failure.
Fault-tolerance: i dati vengono replicati automaticamente su più nodi. È supportata la replica mediante diversi data center, e la sostituzione dei nodi può essere effettuata senza alcun downtime
Tunable consistency: il livello di coerenza (sia in scrittura che in lettura) può essere modificato (ad esempio da writes never fail a block for all replicas to be readable).
Elasticità: il throughput di lettura o scrittura scala linearmente con l'aggiunta di nuove macchine (nodi), senza downtime e senza interruzione di alcun applicativo.

Modello di dati

Una tabella in Cassandra è una mappa multi-dimensionale, distribuita, indicizzata da una chiave; il valore è un oggetto altamente strutturato. La tupla in una tabella è una stringa senza restrizioni sulla lunghezza, tipicamente lunga da 16 a 36 byte.

Ogni operazione (per ogni singola tupla) è atomica (per replica), a prescindere da quante colonne o righe saranno lette o modificate. Le colonne sono raggruppate in insiemi chiamate famiglie (column families) in maniera simile al sistema di BigTable. Le famiglie di colonne messe a disposizione da Cassandra sono due: tipo semplice e tipo super. Il tipo super column può essere rappresentato come una famiglia contenuta in un'altra famiglia. La radice è chiamata Keyspace. Cassandra gestisce mappe di 4 oppure 5 dimensioni secondo il seguente modello

Mappa di 4 dimensioni:

Keyspace → Column Family
Column Family → Column Family Row
Column Family Row → Columns
Column → Data value

Mappa di 5 dimensioni:

Keyspace → Super Column Family
Super Column Family → Super Column Family Row
Super Column Family Row → Super Columns
Super Column → Columns
Column → Data value

La prima dimensione - Keyspace → (Super) Column Family - è limitata a un (piccolo) set di chiavi predefinite nella struttura di archiviazione. La documentazione di Cassandra parla di similitudini per questa dimensione con le definizioni di tabella dei database-relazionali.

Inoltre, le applicazioni possono specificare il tipo di ordinamento delle colonne all'interno di una famiglia di colonne super o simple. Il sistema consente di riorganizzare le colonne in ordine alfabetico o in ordine cronologico.

L'ordine cronologico è sfruttato, ad esempio, dalle applicazioni di posta, dove i risultati sono sempre visualizzati dal più recente al più vecchio. Ogni colonna all'interno di una famiglia è accessibile usando la convenzione "column_family"; le colonne (e ogni altra colonna in esse contenuta) della famiglia di tipo Super sono accessibili usando la convenzione "column_family: super_column: column".

Tipicamente le applicazioni usano un cluster Cassandra dedicato la cui gestione è parte del servizio. Anche se il sistema supporta la nozione di più tabelle, tutte le distribuzioni contengono una sola tabella nel loro schema.

Grandi utenze

Facebook: usa Cassandra nella Posta in Arrivo (InBox) nel motore di ricerca, con oltre 200 nodi distribuiti.
Digg: il più grande sito di social news, ha annunciato il 9 settembre 2009 l'utilizzo di Cassandra e l'8 marzo 2010 è stato confermato e adottato.
Twitter: passa a Cassandra perché può essere eseguito/lanciato su diversi cluster server ed è capace di mantenere un'innumerevole quantità di dati.
rackspace: è conosciuto per aver usato internamente Cassandra.
Cisco Webex: usa Cassandra per memorizzare il feed dell'utente e l'attività in tempo reale.
IBM: ha sperimentato un sistema scalabile di email basato su Cassandra.
Reddit: passa a Cassandra da memcacheDB.
Cloudkick: usa Cassandra per memorizzare i parametri del server dei loro utenti.
Netflix: usa Cassandra per gestire i dati dei suoi sottoscrittori.

Note

^ Is this the new hotness now?
^ InformationWeek | Business Technology News, Reviews and Blogs
^ Looking to the future with Cassandra | Digg About

Voci correlate

Altri progetti

Wikimedia Commons

Wikimedia Commons contiene immagini o altri file su Apache Cassandra

Collegamenti esterni

(EN) Sito ufficiale, su cassandra.apache.org.
Repository sorgenti di Cassandra, su gitbox.apache.org.
Repository sorgenti di Cassandra, su github.com.
Repository sorgenti di Cassandra, su git-wip-us.apache.org.
Sito di segnalazione bug, su issues.apache.org.

V · D · M

Sistemi di gestione delle basi di dati

Relazionali

proprietari	4th Dimension · DB2 · dBase · IBM Informix · InterBase · MaxDB · Oracle · SQL Server · Sybase SQL Anywhere Studio
liberi	Derby · Drizzle · Firebird SQL · HSQLDB · Ingres · MariaDB · MySQL · Percona Server · PostgreSQL

RDBMS integrante un RAD

Access · Bento · FileMaker · HyperFileSQL · Kexi · Knoda · LibreOffice Base · Neo4j · OpenOffice Base · Paradox · SAS · 4th Dimension

Embedded (incorporato)

· Berkeley DB (Relazionale proprietario) · SQLite (Relazionale libero)

Orientati agli oggetti

Tabulare	BigTable · Apache HBase
Archiviazione in tuple	Apache River
Altro	DataBase For Objects · FluidDB · Moneta · OrientDB · PostgreSQL · Versant Object Database · ZODB

Base di dati relazionale a oggetti

software liberi	CUBRID · Virtuoso Universal Server · WakandaDB · Zope Object Database
Proprietari	IBM DB2 · IBM Informix · Greenplum Database · Microsoft SQL Server · Oracle · SAP Adaptive Server Enterprise

NoSQL

Orientato al documento

Database XML	ExistDB · Oracle · BaseX · MarkLogic Server
Altri	CouchDB · MongoDB · RavenDB · Apache Solr · OrientDB · OpenTSDB · KairosDB

Database a grafo

AllegroGraph · Core Data · Neo4j · OrientDB

Chiave/valore archiviato su disco

Redis (open source) · BigTable · DensoDB

Chiave/valore cache in RAM

Redis (open source) · memcached

Valore/chiave Eventually‐consistent

Cassandra · Amazon-Dynamo

Chiave-valore che conserva mediante l'implementazione di Paxos

Keyspace

Chiave-valore ordinato

Berkeley DB · NMDB

Basi di dati multivalore

OpenQM · Rocket U2

Altro

SimpleDB · RethinkDB · LevelDB (No SQL libero)

Sistema di gestione di basi di dati
orientato alle colonne

software liberi	Calpont InfiniDB · Druid · MonetDB · Neo4j · RCFile · Apache HBASE
Proprietari	IBM DB2 · Microsoft SQL Server 2012 · Oracle Exadata · SAP HANA · Sybase IQ · Vector · Vertica

Base di dati spaziale

con specifiche OpenGIS	AsterixDB(Open source) · IBM DB2 · Microsoft SQL Server · MonetDB · MySQL · Neo4j · Oracle Spatial · PostgreSQL con PostGIS · SAP HANA · SpatiaLite · Teradata Geospatial · Vertica Place

Base di dati ad oggetti in movimento

SECONDO, · Firebird con TerraLib · MySQL con TerraLib · PostgreSQL con TerraLib · SQLServer con TerraLib

Base di dati multimediale

Oracle Image · Oracle Video

Categoria:Basi di dati

V · D · M Apache Software Foundation
Progetti principali	Accumulo · ActiveMQ · Ambari · Ant · Aries · Apache HTTP Server · APR · Avro · Axis · Axis2 · Beam · Bloodhound · Brooklyn · Buildr · Calcite · Camel · Cassandra · Cayenne · Chemistry · CloudStack · Cocoon · Cordova · CouchDB · cTAKES · CXF · Derby · Directory · Drill · Empire-db · Felix · Flex · Flink · Flume · Geronimo · Gora · Gump · Hadoop · HBase · Hive · Jackrabbit · James · Jini · JMeter · Kafka · Kudu · Kylin · Lucene · Mahout · Maven · MINA · mod_perl · MyFaces · NetBeans · Nutch · OFBiz · Oozie · OpenEJB · OpenJPA · OpenNLP · OpenOffice · PDFBox · Parquet · Phoenix · POI · Pig · Pivot · Qpid · Roller · Samza · ServiceMix · Shiro · Sling · Solr · Spark · Stanbol · Storm · SpamAssassin · Struts 1 · Struts 2 · Subversion · SystemML · Tapestry · Thrift · Tika · Tomcat · Traffic Server · UIMA · Velocity · Wicket · Xalan · Xerces · ZooKeeper
Apache Commons	BCEL · BSF · Daemon · Jelly · Logging
Apache Incubator	NuttX · SINGA · Trafodion · XAP
Altri progetti	Batik · Chainsaw · FOP · Ivy · Log4j
Apache Attic	Abdera · Apex · AxKit · Beehive · Bluesky · iBATIS · Cactus · Click · Continuum · Deltacloud · Excalibur · Forrest · Hama · Harmony · HiveMind · Jakarta · Lenya · Marmotta · ODE · Shale · Shindig · Slide · Sqoop · stdcxx · Tuscany · Wave · Wink · XMLBeans
Licenze	Licenza Apache
Categoria

V · D · M

Meta Platforms

Sito web

Facebook · Bluetooth Beacon · Credits · Dating · Edgerank · Graph Search · Instant Articles · Live · Platform · Safety Check · Stories · Watch · Zero

Altri prodotti

Attuali	Atlas Solutions · Express Wi-Fi · Free Basics · Giphy · Instagram (Hyperlapse · IGTV) · Messenger (Messenger Kids) · Mapillary · Oculus Quest · Oculus Rift · Oculus Go · Oculus Touch · Portal · Threads · WhatsApp · Workplace
Precedenti	FriendFeed · Home · M · Onavo · Paper · Slingshot · tbh · Wirehog

Persone

Fondatori

Mark Zuckerberg (28%) · Dustin Moskovitz (7%) · Eduardo Saverin (5%, in precedenza) · Chris Hughes (1%, in precedenza) · Andrew McCollum

Consiglio

Mark Zuckerberg · Jim Breyer (11%) · Peter Thiel (2%) · Sheryl Sandberg · Marc Andreessen · Erskine Bowles · Susan Desmond-Hellmann · Donald E. Graham · Reed Hastings

Dirigenti

Attuali	Mark Zuckerberg (Presidente e CEO) · Sheryl Sandberg (COO) · David Wehner (CFO) · Mike Schroepfer (CTO)
Precedenti	Sean Parker (4%, in precedenza) · Owen Van Natta · Gideon Yu · Adam D'Angelo · Chris Kelly · Bret Taylor · David Ebersman

Dipendenti degni di nota

Attuali	Nick Clegg (vicepresidente per gli affari globali e la comunicazione) · Lars Rasmussen (direttore di Graph Search) · John Carmack (CTO di Oculus VR) · Hugo Barra (vicepresidente di Oculus VR) · Naomi Gleit (vicepresidente dei beni pubblici)
Precedenti	Chris Cox (direttore di produzione) · Blake Ross (direttore di produzione) · Ted Ullyot (vicepresidente, consigliere generale e segretario) · Matt Cohler · Charlie Cheever · Randi Zuckerberg · Yishan Wong · George Hotz · Joe Lockhart · Andrei Alexandrescu (ricercatore) · Elliot Schrage (vicepresidente della comunicazione globale, marketing e politiche pubbliche)

Open source

Apache Cassandra · Apache Hive · Apache Thrift · Buck · FQL · Hack · HHVM · HipHop for PHP · Infer · MyRocks · Open Compute Project · Phabricator · React · React Native · RocksDB · Scribe · Telecom Infra Project · Tornado

Mass media

The Facebook Effect · Miliardari per caso - L'invenzione di Facebook: una storia di soldi, sesso, genio e tradimento · The Social Network