Este capítulo descreve a sintaxe [1] da linguagem SQL, estabelecendo a base para compreender os próximos capítulos que descrevem detalhadamente como os comandos SQL são utilizados para definir e modificar os dados.
Aconselha-se aos usuários já familiarizados com a linguagem SQL a leitura cuidadosa deste capítulo, porque existem várias regras e conceitos implementados pelos bancos de dados SQL de forma inconsistente, ou específicos do PostgreSQL.
Uma entrada SQL é constituída por uma seqüência de comandos. Um comando é composto por uma seqüência de termos (tokens), terminada por um ponto-e-vírgula (";"). O fim do fluxo de entrada também termina o comando. Quais termos são válidos depende da sintaxe particular de cada comando. [2]
Um termo pode ser uma palavra chave, um identificador, um identificador entre aspas, um literal (ou constante), ou um caractere especial. Geralmente os termos são separados por espaço em branco (espaço, tabulação ou nova-linha), mas não há necessidade se não houver ambigüidade (normalmente só acontece quando um caractere especial está adjacente a um termo de outro tipo).
Além disso, podem existir comentários na entrada SQL. Os comentários não são termos, na realidade são equivalentes a espaço em branco.
Abaixo está mostrada uma entrada SQL válida (sintaticamente) para servir de exemplo:
SELECT * FROM MINHA_TABELA; UPDATE MINHA_TABELA SET A = 5; INSERT INTO MINHA_TABELA VALUES (3, 'oi você');
Esta é uma seqüência de três comandos, um por linha (embora isto não seja requerido; pode haver mais de um comando na mesma linha, e um único comando pode ocupar várias linhas).
A sintaxe do SQL não é muito coerente em relação a quais termos identificam comandos e quais são operandos ou parâmetros. Geralmente os primeiros termos são o nome do comando e, portanto, no exemplo mostrado acima pode-se dizer que estão presentes os comandos "SELECT", "UPDATE" e "INSERT". Entretanto, para exemplificar, o comando UPDATE sempre requer que o termo SET apareça em uma determinada posição, e esta forma particular do comando INSERT também requer a presença do termo VALUES para estar completa. As regras precisas da sintaxe de cada comando estão descritas na Parte VI .
Os termos SELECT, UPDATE e VALUES mostrados no exemplo acima são exemplos de palavras chave, ou seja, palavras que possuem um significado definido na linguagem SQL. Os termos MINHA_TABELA e A são exemplos de identificadores, os quais identificam nomes de tabelas, colunas e outros objetos do banco de dados, dependendo do comando onde são utilizados. Portanto, algumas vezes são simplesmente chamados de "nomes". As palavras chave e os identificadores possuem a mesma estrutura léxica, significando que não é possível saber se o termo é um identificador ou uma palavra chave sem conhecer a linguagem. A relação completa das palavras chave pode ser encontrada no Apêndice C .
Os identificadores e as palavras chave do SQL devem iniciar por uma letra (a-z e, também, letras com diacrítico [3] - áéç... - e letras não latinas), ou o caractere sublinhado (_). Os demais caracteres de um identificador, ou da palavra chave, podem ser letras, sublinhados, dígitos (0-9) ou o cifrão ($). Deve ser observado que, de acordo com o padrão SQL, o cifrão não é permitido em identificadores e, portanto, pode tornar a aplicação menos portável. O padrão SQL não irá definir palavra chave contendo dígitos, ou começando ou terminando por sublinhado e, portanto, os identificadores com esta forma estão a salvo contra possíveis conflitos com extensões futuras do padrão.
O sistema não utiliza mais que NAMEDATALEN-1 caracteres de um identificador; podem ser escritos nomes mais longos nos comandos, mas são truncados. Por padrão NAMEDATALEN é 64 e, portanto, o comprimento máximo de um identificador é 63. Se este limite causar problema, pode ser aumentado modificando a constante NAMEDATALEN no arquivo src/include/postgres_ext.h).
Os identificadores e as palavras chave não fazem distinção entre letras maiúsculas e minúsculas. Portanto,
UPDATE MINHA_TABELA SET A = 5;
pode ser escrito de forma equivalente como
uPDaTE Minha_Tabela SeT a = 5;
Normalmente utiliza-se a convenção de escrever as palavras chave em letras maiúsculas e os nomes em letras minúsculas, como mostrado abaixo:
UPDATE minha_tabela SET a = 5;
Existe um segundo tipo de identificador: o identificador delimitado ou identificador entre aspas, formado pela colocação de uma seqüência arbitrária de caracteres entre aspas ("). Um identificador delimitado é sempre um identificador, e nunca uma palavra chave. Portanto, "select" pode ser usado para fazer referência a uma tabela ou coluna chamada "select", enquanto select sem aspas sempre é uma palavra chave ocasionando, por isso, um erro do analisador quando usado onde um nome de tabela ou de coluna for esperado. O exemplo acima pode ser reescrito utilizando identificadores entre aspas como mostrado abaixo:
UPDATE "minha_tabela" SET "a" = 5;
Identificadores entre aspas podem conter qualquer caractere que não seja a própria aspas (Para incluir uma aspas, devem ser escritas duas aspas). Esta funcionalidade permite criar nomes de tabelas e de colunas que não seriam possíveis de outra forma, como os contendo espaços ou e-comercial (&). O limite do comprimento ainda se aplica.
Colocar um identificador entre aspas torna diferente as letras maiúsculas e minúsculas, enquanto as letras dos nomes não envoltos por aspas são sempre convertidas em minúsculas. Por exemplo, os identificadores FOO, foo e "foo" são considerados o mesmo identificador pelo PostgreSQL, mas "Foo" e "FOO" são diferentes dos três primeiros e entre si.
A transformação das letras dos nomes que não estão entre aspas em minúsculas feita pelo PostgreSQL é incompatível com o padrão SQL, que especifica a transformação em maiúsculas das letras dos nomes que não estão entre aspas. Portanto, foo deveria ser equivalente a "FOO", e não a "foo", de acordo com o padrão. Se for desejado desenvolver aplicações portáveis, aconselha-se a colocar o nome sempre entre aspas, ou nunca entre aspas.
Exemplo 4-1. Utilização de letras acentuadas em nomes de tabelas
Este exemplo tem por finalidade mostrar a utilização de letras acentuadas nos nomes de tabelas. Deve ser observado o problema na conversão de letras maiúscúlas e minúsculas acentuadas utilizando a localização C. [4]
=> SELECT name, setting FROM pg_settings WHERE name LIKE 'lc%'; name | setting -------------+--------- lc_collate | C lc_ctype | C lc_messages | C lc_monetary | C lc_numeric | C lc_time | C (6 linhas) => CREATE TABLE AÇÃO(cod_ação int, nome_ação text); => \dt Lista de relações Esquema | Nome | Tipo | Dono ---------+-----------+--------+---------- public | aÇÃo | tabela | postgres public | teste_abc | tabela | postgres public | testeaabc | tabela | postgres (3 linhas) -- No exemplo acima ÇÃ não foi convertido em minúsculas => \dt AÇÃO Não foi encontrada nenhuma relação correspondente. => \dt ação Não foi encontrada nenhuma relação correspondente. => \dt "aÇÃo" Lista de relações Esquema | Nome | Tipo | Dono ---------+------+--------+---------- public | aÇÃo | tabela | postgres (1 linha) -- Os exemplos acima mostram que só aÇÃo entre aspas corresponde ao nome da tabela. -- Abaixo a tabela é criada com letras minúsculas. => CREATE TABLE ação(cod_ação int, nome_ação text); => \dt Lista de relações Esquema | Nome | Tipo | Dono ---------+-----------+--------+---------- public | ação | tabela | postgres public | teste_abc | tabela | postgres public | testeaabc | tabela | postgres (3 linhas) => \dt ação Lista de relações Esquema | Nome | Tipo | Dono ---------+------+--------+---------- public | ação | tabela | postgres (1 linha) => \dt AÇÃO Lista de relações Esquema | Nome | Tipo | Dono ---------+------+--------+---------- public | ação | tabela | postgres (1 linha) -- Nos exemplos acima foram bem-sucedidas a utilização tanto de ação quanto de AÇÃO. => INSERT INTO AÇÃO VALUES (1,'primeira ação'); ERRO: a relação "aÇÃo" não existe => INSERT INTO ação VALUES (1,'primeira ação'); INSERT 1665900 1 -- Nos exemplos acima só foi bem-sucedida a utilização de ação. -- Para todas as letras do nome ficarem maiúsculas estes devem -- ser escritos com letras maiúsculas e colocados entre aspas. => CREATE TABLE "AÇÃO"("COD_AÇÃO" int, "NOME_AÇÃO" text); => teste=# \dt Lista de relações Esquema | Nome | Tipo | Dono ---------+-----------+--------+---------- public | AÇÃO | tabela | postgres public | teste_abc | tabela | postgres public | testeaabc | tabela | postgres (3 linhas) => \dt "AÇÃO" Lista de relações Esquema | Nome | Tipo | Dono ---------+------+--------+---------- public | AÇÃO | tabela | postgres (1 linha) => INSERT INTO "AÇÃO" ("COD_AÇÃO", "NOME_AÇÃO") VALUES (1,'primeira ação'); => SELECT * FROM "AÇÃO"; COD_AÇÃO | NOME_AÇÃO ----------+--------------- 1 | primeira ação (1 linha)
Existem três tipos de constante com tipo implícito no PostgreSQL: cadeias de caracteres, cadeias de bits e numéricas. As constantes também podem ser especificadas com tipo explícito, o que permite uma representação mais precisa, e um tratamento mais eficiente por parte do sistema. Estas alternativas são mostradas nas próximas subseções.
Uma constante cadeia de caracteres no SQL é uma seqüência arbitrária de caracteres envolta por apóstrofos (') como, por exemplo, 'Esta é uma cadeia de caracteres'. A forma de escrever um apóstrofo dentro de uma constante cadeia de caracteres, em conformidade com o padrão SQL, é colocar dois apóstrofos adjacentes como, por exemplo, 'Maria D''Almeida'. O PostgreSQL também permite utilizar a contrabarra ("\") como caractere de escape para colocar apóstrofos dentro de cadeia de caracteres como, por exemplo, 'Maria D\'Almeida'.
Outra extensão do PostgreSQL é permitir a utilização dos escapes de contrabarra no estilo da linguagem C: \b para voltar apagando (backspace), \f para avanço de formulário (form feed), \n para nova-linha (newline), \r para retorno do carro (carriage return), \t para tabulação (tab) e \xxx, onde xxx é um número octal, é o byte com o código correspondente (É sua responsabilidade que as seqüências de byte criadas sejam caracteres válidos no conjunto de codificação de caracteres do servidor). Qualquer outro caractere vindo após a contrabarra é interpretado literalmente. Portanto, para incluir uma contrabarra em uma constante do tipo cadeia de caracteres devem ser escritas duas contrabarras adjacentes.
O caractere com o código zero não pode estar presente em uma constante cadeia de caracteres.
Duas constantes cadeia de caracteres separadas apenas por espaço em branco com pelo menos um caractere de nova-linha, são concatenadas e tratadas efetivamente como se a cadeia de caracteres tivesse sido escrita em uma constante. Por exemplo:
SELECT 'foo' 'bar';
equivale a
SELECT 'foobar';
mas
SELECT 'foo' 'bar';
não é uma sintaxe válida (este comportamento, um tanto ao quanto esquisito, é especificado no padrão SQL; o PostgreSQL está seguindo o padrão).
Exemplo 4-2. Constantes cadeia de caracteres ocupando mais de uma linha
Este exemplo tem por finalidade mostrar a utilização de uma constante cadeia de caracteres ocupando mais de uma linha para inserir dados em uma tabela. No Oracle e no DB2 há necessidade do operador de concatenação ||, enquanto no SQL Server há necessidade do operador de concatenação +. Só no PostgreSQL não houve necessidade de operador de concatenação. [5]
PostgreSQL 7.4.1:
=> CREATE TABLE "AÇÃO"("COD_AÇÃO" int, "NOME_AÇÃO" text); => INSERT INTO "AÇÃO" ("COD_AÇÃO", "NOME_AÇÃO") VALUES (1,'um nome' (> ' de ação' (> ' muito longo'); => SELECT * FROM "AÇÃO"; COD_AÇÃO | NOME_AÇÃO ----------+----------------------------- 1 | um nome de ação muito longo (1 linha)
SQL Server 2000:
CREATE TABLE "AÇÃO"("COD_AÇÃO" int, "NOME_AÇÃO" text) INSERT INTO "AÇÃO" ("COD_AÇÃO", "NOME_AÇÃO") VALUES (1,'um nome' + ' de ação' + ' muito longo') SELECT * FROM "AÇÃO" COD_AÇÃO NOME_AÇÃO ----------- --------------------------- 1 um nome de ação muito longo (1 row(s) affected)
Oracle 10g:
SQL> CREATE TABLE "AÇÃO"("COD_AÇÃO" int, "NOME_AÇÃO" varchar2(32)); SQL> INSERT INTO "AÇÃO" ("COD_AÇÃO", "NOME_AÇÃO") VALUES (1,'um nome' || 2 ' de ação' || 3 ' muito longo'); SQL> SELECT * FROM "AÇÃO"; COD_AÇÃO NOME_AÇÃO ---------- -------------------------------- 1 um nome de ação muito longo
DB2 8.1:
DB2SQL92> CREATE TABLE "AÇÃO"("COD_AÇÃO" int, "NOME_AÇÃO" varchar(32)); DB2SQL92> INSERT INTO "AÇÃO" ("COD_AÇÃO", "NOME_AÇÃO") VALUES (1,'um nome' || DB2SQL92> ' de ação' || DB2SQL92> ' muito longo'); DB2SQL92> SELECT * FROM "AÇÃO"; COD_AÇÃO NOME_AÇÃO ----------------------------------------------- 1 um nome de ação muito longo
Uma constante do tipo cadeia de bits se parece com uma constante do tipo cadeia de caracteres contendo a letra B (maiúscula ou minúscula) imediatamente antes do apóstrofo de abertura (sem espaços separadores) como, por exemplo, B'1001'. Os únicos caracteres permitidos dentro de uma constante do tipo cadeia de bits são 0 e 1.
Como forma alternativa, constantes do tipo cadeia de bits podem ser especificadas usando a notação hexadecimal, colocando a letra X (maiúscula ou minúscula) no início como, por exemplo, X'1FF'. Esta notação equivale a uma constante do tipo cadeia de bits contendo quatro dígitos binários para cada dígito hexadecimal.
As duas formas de constantes do tipo cadeia de bits podem ocupar mais de uma linha, da mesma forma que uma constante do tipo cadeia de caracteres.
São aceitas constantes numéricas nas seguintes formas gerais:
dígitos dígitos.[dígitos][e[+-]dígitos] [dígitos].dígitos[e[+-]dígitos] dígitose[+-]dígitos
onde dígitos são um ou mais dígitos decimais (0 a 9). Deve haver pelo menos um dígito antes ou depois do ponto decimal, se este for usado. Deve haver pelo menos um dígito após a marca de expoente (e), caso esteja presente. Não podem existir espaços ou outros caracteres incorporados à constante. Deve ser observado que os sinais menos e mais que antecedem a constante não são, na verdade, considerados parte da constante, e sim um operador aplicado à constante.
Abaixo são mostrados alguns exemplos de constantes numéricas válidas:
42
3.5
4.
.001
5e2
1.925e-3
Uma constante numérica não contendo o ponto decimal nem o expoente é presumida, inicialmente, como sendo do tipo integer, se o seu valor for apropriado para o tipo integer (32 bits); senão é presumida como sendo do tipo bigint, se o seu valor for apropriado para o tipo bigint (64 bits); caso contrário, é assumida como sendo do tipo numeric. As constantes que contêm pontos decimais e/ou expoentes são sempre presumidas inicialmente como sendo do tipo numeric.
O tipo de dado atribuído inicialmente para a constante numérica é apenas o ponto de partida para os algoritmos de resolução de tipo. Na maioria dos casos, a constante é automaticamente convertida no tipo mais apropriado conforme o contexto. Quando for necessário, pode-se impor que o valor numérico seja interpretado como sendo de um tipo de dado específico, definindo a conversão a ser aplicada. Por exemplo, pode-se impor que o valor numérico seja tratado como sendo do tipo real (float4) escrevendo:
REAL '1.23' -- estilo cadeia de caracteres 1.23::REAL -- estilo PostgreSQL (histórico)
Pode ser declarada uma constante de um tipo arbitrário utilizando uma das seguintes notações:
tipo 'cadeia de caracteres' 'cadeia de caracteres'::tipo CAST ( 'cadeia de caracteres' AS tipo )
O texto da constante cadeia de caracteres é passado para a rotina de conversão da entrada para o tipo chamado tipo. O resultado é uma constante do tipo indicado. A conversão explícita de tipo pode ser omitida caso não haja ambigüidade com relação ao tipo que a constante deva ter (por exemplo, quando é atribuída diretamente para uma coluna de uma tabela), neste caso é convertida automaticamente.
Também é possível especificar a conversão de tipo utilizando a sintaxe semelhante à chamada de função
nome_do_tipo ( 'cadeia de caracteres' )
mas nem todos os nomes de tipo podem ser usados desta forma; veja a Seção 4.2.8 para obter mais informações.
As sintaxes ::, CAST() e chamada de função também podem ser utilizadas para especificar a conversão de tipo em tempo de execução para expressões arbitrárias, conforme mostrado na Seção 4.2.8 . Porém, a forma tipo 'cadeia de caracteres' somente pode ser utilizada para especificar o tipo de uma constante literal. Outra restrição com relação à sintaxe tipo 'cadeia de caracteres', é que não funciona em tipo matriz (arrays); deve ser usado :: ou CAST() para especificar o tipo de uma constante matriz.
Um nome de operador é uma seqüência com até NAMEDATALEN-1 (por padrão 63) caracteres da seguinte lista:
+ - * / < > = ~ ! @ # % ^ & | ` ?
Entretanto, existem algumas poucas restrições para os nomes de operadores:Ao trabalhar com nomes de operadores fora do padrão SQL, normalmente é necessário separar operadores adjacentes por espaço para evitar ambigüidade. Por exemplo, se for definido um operador unário-esquerdo chamado @, não poderá ser escrito X*@Y; deverá ser escrito X* @Y, para garantir que o PostgreSQL leia dois nomes de operadores e não apenas um.
Alguns caracteres não alfanuméricos possuem significado especial diferente de ser um operador. Os detalhes da utilização podem ser encontrados nos locais onde a sintaxe do respectivo elemento é descrita. Esta seção se destina apenas a informar a existência e fazer um resumo das finalidades destes caracteres.
COUNT
.
Um comentário é uma seqüência arbitrária de caracteres começando por dois hífens e prosseguindo até o fim da linha como, por exemplo:
-- Este é um comentário em conformidade com o padrão SQL-92
Como alternativa, podem ser utilizados blocos de comentários no estilo C:
/* comentário de várias linhas * com aninhamento: /* bloco de comentário aninhado */ */
onde o comentário começa por /* e se estende até encontrar a ocorrência correspondente de */. Estes blocos de comentários podem estar aninhados, conforme especificado no padrão SQL, mas diferentemente da linguagem C, permitindo transformar em comentário grandes blocos de código contendo blocos de comentários. [6] [7]
Os comentários são removidos do fluxo de entrada antes de prosseguir com a análise sintática, sendo substituídos por espaço em branco.
A Tabela 4-1 mostra a precedência e a associatividade dos operadores no PostgreSQL. A maioria dos operadores possui a mesma precedência e associatividade esquerda. A precedência e a associatividade dos operadores está codificada no analisador, podendo ocasionar um comportamento contra-intuitivo; por exemplo, os operadores booleanos < e > possuem uma precedência diferente dos operadores booleanos <= e >=. Também, em alguns casos é necessário adicionar parênteses ao utilizar uma combinação de operadores unários e binários. Por exemplo,
SELECT 5 ! - 6;
será analisado como
SELECT 5 ! (- 6);
porque o analisador não possui a menor idéia — até ser tarde demais — que o ! é definido como operador unário-direito (postfix), e não um operador binário colocado entre os operandos (infix). Neste caso, para obter o comportamento desejado deve ser escrito:
SELECT (5 !) - 6;
Este é o preço a ser pago pela extensibilidade.
Tabela 4-1. Precedência dos operadores (decrescente)
Operador/Elemento | Associatividade | Descrição |
---|---|---|
. | esquerda | separador de nome de tabela/coluna |
:: | esquerda | conversão de tipo estilo PostgreSQL |
[ ] | esquerda | seleção de elemento de matriz |
- | direita | menos unário |
^ | esquerda | exponenciação |
* / % | esquerda | multiplicação, divisão, módulo |
+ - | esquerda | adição, subtração |
IS | IS TRUE, IS FALSE, IS UNKNOWN, IS NULL | |
ISNULL | teste de nulo | |
NOTNULL | teste de não nulo | |
(qualquer outro) | esquerda | os demais operadores nativos e os definidos pelo usuário |
IN | membro de um conjunto | |
BETWEEN | contido em um intervalo | |
OVERLAPS | sobreposição de intervalo de tempo | |
LIKE ILIKE SIMILAR | correspondência de padrão em cadeia de caracteres | |
< > | menor que, maior que | |
= | direita | igualdade, atribuição |
NOT | direita | negação lógica |
AND | esquerda | conjunção lógica |
OR | esquerda | disjunção lógica |
Deve ser observado que as regras de precedência dos operadores também se aplicam aos operadores definidos pelos usuários que possuem os mesmos nomes dos operadores nativos mencionados acima. Por exemplo, se for definido pelo usuário um operador "+" para algum tipo de dado personalizado, este terá a mesma precedência do operador "+" nativo, não importando o que faça.
Quando um nome de operador qualificado pelo esquema é utilizado na sintaxe OPERATOR como, por exemplo, em
SELECT 3 OPERATOR(pg_catalog.+) 4;
a construção OPERATOR é assumida como tendo a precedência padrão mostrada na Tabela 4-1 para "qualquer outro" operador. Isto é sempre verdade, não importando qual o nome do operador especificado dentro de OPERATOR().
[1] |
sintaxe — do Lat. syntaxe < Gr. sýntaxis, arranjo, disposição — parte da estrutura gramatical de uma língua que contém as regras relativas à combinação das palavras em unidades maiores (como as orações), e as relações existentes entre as palavras dentro dessas unidades. PRIBERAM - Língua Portuguesa On-Line . (N. do T.) |
[2] |
léxico — do Gr. léxicon, relativo às palavras — dicionário de línguas clássicas antigas; dicionário abreviado; conjunto dos vocábulos de uma língua; dicionário dos vocábulos usados num domínio especializado (ciência, técnica). PRIBERAM - Língua Portuguesa On-Line . (N. do T.) |
[3] |
diacrítico — do Gr. diakritikós, que se pode distinguir — diz-se dos sinais gráficos com que se notam os caracteres alfabéticos para lhe dar um valor especial. PRIBERAM - Língua Portuguesa On-Line . (N. do T.) |
[4] |
Exemplo escrito pelo tradutor, não fazendo parte do manual original. |
[5] |
Exemplo escrito pelo tradutor, não fazendo parte do manual original. |
[6] |
Oracle 9i — O manual não cita comentários aninhados, mas experiências com o SQL*Plus mostraram que não é possível aninhar comentários /* dentro de comentários /*, mas que é possível colocar comentários -- dentro de comentários /*. Comments . (N. do T.) |
[7] |
SQL Server 2000 — O Books Online só cita comentários -- dentro de comentários /*, mas experiências com o Query Analyzer mostraram que é possível aninhar comentários /* dentro de comentários /*, mas a cor do comentário não fica correta. (N. do T.) |