Se acaba de lanzar la extensión PGSpider
Acabamos de lanzar la extensión PGSpider (pgspider_ext).
Se trata de una extensión que permite crear un motor de clústeres SQL de alto rendimiento para macrodatos distribuidos.
PGSpider permite a PostgreSQL acceder a una serie de fuentes de datos, utilizando un conector de datos externos (FDW), y recuperar la fuente de datos distribuida verticalmente.
La característica principal es la siguiente:
* Tabla particionada por nodos
El usuario puede obtener de forma sencilla, y con un único SQL, registros de varias tablas pertenecientes a distintas fuentes de datos.
Al existir 2 fuentes de datos que tienen los siguientes registros:
SELECT * FROM t1_node1; -- @node1 i | t ----+--- 10 | a 11 | b (2 rows) SELECT * FROM t1_node2; -- @node2 i | t ----+--- 20 | c 21 | d (2 rows)
PGSpider permitirá recopilar estos registros mediante una columna con el identificador del nodo:
SELECT * FROM t1; i | t | node ----+---+------- 10 | a | node1 11 | b | node1 20 | c | node2 21 | d | node2 (4 rows)
- Procesamiento en paralelo
PGSpider puede obtener resultados de fuentes de datos en paralelo.
- Pushdown
PGSpider puede aplicar la cláusula WHERE y las funciones de agregado a las fuentes de datos.
La enviabilidad depende del conector de datos externos de la fuente de datos.
Desarrollada por el Toshiba Software Engineering & Technology Center.
Repositorio fuente: https://github.com/pgspider/pgspider_ext
Saludos cordiales,
Mototaka Kanematsu