复合类型

复合类型 表示一行或者一条记录的结构; 它实际上只是一个字段名和它们的数据类型的列表。OushuDB 允许像简单数据类型那样使用复合类型。比如,一个表的某个列可以声明为一个复合类型。

声明复合类型

下面是两个定义复合类型的简单例子:

CREATE TYPE complex AS (
    r       double precision,
    i       double precision
);

CREATE TYPE inventory_item AS (
    name            text,
    supplier_id     integer,
    price           numeric
);

语法类似于CREATE TABLE,只是这里只可以声明字段名字和类型; 目前不能声明约束(比如NOT NULL)。请注意AS关键字是很重要的; 没有它,系统会错误识别CREATE TYPE命令, 从而出现语法错误。

定义了类型,我们就可以用它创建表:

CREATE TABLE on_hand (
    item      inventory_item,
    count     integer
);

INSERT INTO on_hand VALUES (ROW('fuzzy dice', 42, 1.99), 1000);

或者函数:

CREATE FUNCTION price_extension(inventory_item, integer) RETURNS numeric
AS 'SELECT $1.price * $2' LANGUAGE SQL;

SELECT price_extension(item, 10) FROM on_hand;

在你创建表的时候,也会自动创建一个复合类型,名字与表名字相同, 表示该表的行类型。比如,如果我们说过:

CREATE TABLE inventory_item (
    name            text,
    supplier_id     integer REFERENCES suppliers,
    price           numeric CHECK (price > 0)
);

那么,和前面相同的inventory_item复合类型也会作为副产品创建, 并且可以和上面一样使用。不过,需要注意当前实现的一个重要限制: 因为现在还没有对复合类型实现约束,所以在表定义中显示的约束 并不适用 于表之外的复合类型值。(一个部分绕开的办法是使用域类型作为复合类型的成员。)

Note

ORC/PARQUET/MAGMA格式的表都不支持复合类型。

复合类型值输入

要以文本常量书写复合类型值,在圆括弧里包围字段值并且用逗号分隔他们。 你可以在任何字段值周围放上双引号,如果值本身包含逗号或者圆括弧, 你必须用双引号括起(更多细节见下面)。因此,复合类型常量的一般格式如下:

'( val1 , val2 , ... )'

一个例子是:

'("fuzzy dice",42,1.99)'

这是一个inventory_item类型的合法数值。 要让一个字段值是 NULL ,那么在列表里它的位置上不要写任何字符。比如, 下面这个常量在第三个字段声明一个 NULL :

'("fuzzy dice",42,)'

如果你想要一个空字符串,而不是 NULL ,写一对双引号:

'("",42,)'

这里的第一个字段是一个非 NULL 的空字符串,第三个字段是 NULL。

(这些常量实际上只是我们在 其他类型的常量 讨论的一般类型常量的一个特殊例子。这些常量一开始只是当作字符串, 然后传递给复合类型输入转换器。一个明确的类型声明可能是必须的。)

我们也可以用ROW表达式语法来构造复合类型值。 在大多数场合下,这种方法都比用字符串文本的语法更简单,因为你不用操心多重引号。 我们已经在之前使用了这种方法了:

ROW('fuzzy dice', 42, 1.99)
ROW('', 42, NULL)

只要你在表达式里有超过一个字段,那么关键字 ROW 就实际上是可选的, 所以可以简化为:

('fuzzy dice', 42, 1.99)
('', 42, NULL)

ROW表达式语法在 行构造器 里有更详细的讨论。

访问复合类型

要访问复合类型字段的一个域,我们写出一个点以及域的名字,非常类似于从一个表名字里选出一个列。实际上,因为实在太像从表名字中选取列,所以我们经常需要用圆括号来避免分析其混淆。比如,你可能需要从on_hand 例子表中选取一些子域,像下面这样:

SELECT item.name FROM on_hand WHERE item.price > 9.99;

这样将不能工作,因为根据 SQL 语法,item是从一个表名字选取的, 而不是一个域名字。你必须像下面这样写:

SELECT (item).name FROM on_hand WHERE (item).price > 9.99;

或者如果你也需要使用表名字(比如,在一个多表查询里),那么这么写:

SELECT (on_hand.item).name FROM on_hand WHERE (on_hand.item).price > 9.99;

现在圆括弧对象正确地解析为一个指向item域的引用,然后就可以从中选取子域。

类似的语法问题适用于在任何时候从一个复合类型值中查询一个域。比如, 要从一个返回复合类型值的函数中只选取一个域,你需要写像下面这样的东西:

SELECT (my_func(...)).field FROM ...

如果没有额外的圆括弧,会产生一个语法错误。

修改复合类型

下面是一些插入复合类型字段的正确语法:

INSERT INTO mytab (complex_col) VALUES((1.1,2.2));

VALUES后面可以使用ROW修饰一行,也可以省略它,两种用法都可以。

我们也可以声明子域是INSERT的目标:

INSERT INTO mytab (complex_col.r, complex_col.i) VALUES(1.1, 2.2);

如果我们没有为字段的所有子域提供数值,那么剩下的子域将用 NULL 填充。

复合类型的输入和输出语法

一个复合类型的外部文本表现形式包含那些根据独立的子域类型各自 I/O 转换规则解析的项, 加上一些表明这是复合结构的修饰。这些修饰由整个数值周围的圆括弧(( 和 ))加上相邻域之间的逗号(,)组成。圆括弧外面的空白被忽略, 但是在圆括弧里面,它被当作子域数值的一部分,根据对该子域数据类型的输入转换规则, 这些空白可能有用,也可能没用。比如,在:

'(  42)'

里,如果子域类型是整数,那么空白将被忽略,但是如果是文本,那么就不会忽略。

如前面显示的那样,在给一个复合类型写数值的时候,你可以在独立的子域数值周围用双引号包围。 如果子域数值会导致复合数值分析器产生歧义,那么你必须这么做。 特别是当子域包含圆括弧、逗号、双引号或反斜杠。要想在双引号括起来的复合字段值里面放双引号或反斜杠, 那么你需要在它前面放一个反斜杠。(同样,在一个双引号括起的子域数值里面的一对双引号表示一个双引号字符, 就像 SQL 字符串文本的单引号规则一样。)另外, 你可以用反斜杠转义的方法保护所有可能会当作复合类型语法的数据字符。

一个完全空的子域数值(在逗号或者逗号与圆括弧之间没有字符)表示一个 NULL 。 要写一个空字符串,而不是一个 NULL ,写”“。

假如子域数值是空字符串或者包含圆括弧、逗号、双引号、反斜杠、空白, 复合类型输出程序会在子域数值周围放上双引号。(这么处理空白不是必须的, 但是可以增强易读性。)在一个子域数值里面嵌入的双引号和反斜杠将会写成两份。

Note

请注意你写的任何 SQL 命令都首先被当作字符串文本解析,然后才当作复合类型。 这就加倍了你需要的反斜杠数目(假设使用转义字符串的语法)。比如, 要插入一个包含双引号和一个反斜杠的text子域到一个复合类型数值里,你需要写:

INSERT ... VALUES (E'("\\"\\\\")');

字符串文本处理器先去掉一层反斜杠,这样到达复合类型分析器的东西将变成(“”")。 接着,该字符串传递给text数据类型的输入过程,变成 “。 (如果我们使用的数据类型对反斜杠也有特殊待遇,比如bytea, 那么我们可能需要在命令里放多达八个反斜杠以获取在存储的复合类型子域中有一个反斜杠。) 美元符界定(参阅 美元符引用字符串常量 )可以用于避免双份反斜杠的问题。

Tip

在 SQL 命令里写复合类型值的时候,ROW构造器语法通常比复合文本语法更容易使用。 在ROW里,独立的子域数值的写法和并非作为复合类型的成员书写的方法一样。