Se acaba de lanzar la extensión PGSpider
Acabamos de lanzar la extensión PGSpider (pgspider_ext).
Se trata de una extensión que permite crear un motor de clústeres SQL de alto rendimiento para macrodatos distribuidos.
PGSpider permite a PostgreSQL acceder a una serie de fuentes de datos, utilizando un conector de datos externos (FDW), y recuperar la fuente de datos distribuida verticalmente.
La característica principal es la siguiente:
* Tabla particionada por nodos
El usuario puede obtener de forma sencilla, y con un único SQL, registros de varias tablas pertenecientes a distintas fuentes de datos.
Al existir 2 fuentes de datos que tienen los siguientes registros:
SELECT * FROM t1_node1; -- @node1
i | t
----+---
10 | a
11 | b
(2 rows)
SELECT * FROM t1_node2; -- @node2
i | t
----+---
20 | c
21 | d
(2 rows)
PGSpider permitirá recopilar estos registros mediante una columna con el identificador del nodo:
SELECT * FROM t1;
i | t | node
----+---+-------
10 | a | node1
11 | b | node1
20 | c | node2
21 | d | node2
(4 rows)
- Procesamiento en paralelo
PGSpider puede obtener resultados de fuentes de datos en paralelo.
- Pushdown
PGSpider puede aplicar la cláusula WHERE y las funciones de agregado a las fuentes de datos.
La enviabilidad depende del conector de datos externos de la fuente de datos.
Desarrollada por el Toshiba Software Engineering & Technology Center.
Repositorio fuente: https://github.com/pgspider/pgspider_ext
Saludos cordiales,
Mototaka Kanematsu

