Books Home

Passeport pour UNICODE

 

Bernard Desgraupes

288 pages

ISBN 2-7117-4827-8

Editions Vuibert Informatique Paris 2005

 

Table des matières

LE STANDARD UNICODE

Introduction

Chapitre 1: L'architecture du standard

1.1 Les dix commandements du standard Unicode    3

    1.1.1 Universalité    5

    1.1.2 Notion de caractère    7

    1.1.3 Efficacité    8

    1.1.4 Sémantique des caractères    8

    1.1.5 Stockage au format texte    9

    1.1.6 Ordre logique    9

    1.1.7 Unification    11

    1.1.8 Équivalences de formes    11

    1.1.9 Convertibilité vers les autres standards    13

    1.1.10 Formes composites    13

1.2 Caractères de compatibilité    13

1.3 Les codes-points    15

1.4 Les formes d'encodage    17

    1.4.1 La forme UTF-32    19

    1.4.2 La forme UTF-16    20

    1.4.3 La forme UTF-8    21

    1.4.4 Les mérites comparés des trois formes d'encodage    22

1.5 Schémas d'encodage    23

1.6 Chaînes de caractères Unicode    25

1.7 Directionalité    26

1.8 Caractères combinatoires    27

    1.8.1 Le cas des caractères combinatoires multiples    29

    1.8.2 Ligatures et caractères combinatoires    31

    1.8.3 Clones    32

    1.8.4 Clusters    32

1.9 Géographie de l'espace d'encodage    34

    1.9.1 Les plans de l'espace Unicode    35

        Le plan de base    35

        Le plan supplémentaire    40

        Le plan idéographique supplémentaire    41

        Le plan supplémentaire spécifique    41

        Les plans à usage privé    41

1.10 Caractères spéciaux    42

    1.10.1 Non-caractères    43

Chapitre 2: Propriétés des caractères

2.1 Format de la base de données    46

2.2 Propriétés de base    49

    2.2.1 Format des entrées de base    49

    2.2.2 Nom des caractères    51

    2.2.3 Catégorie générale    52

    2.2.4 Classe combinatoire    56

    2.2.5 Décomposition    57

    2.2.6 Directionalité et miroirs    57

    2.2.7 Valeurs numériques    59

    2.2.8 Propriétés de casse    60

2.3 Propriétés particulières    61

    2.3.1 Le fichier ArabicShaping.txt    61

    2.3.2 Le fichier BidiMirroring.txt    62

    2.3.3 Le fichier Blocks.txt    63

    2.3.4 Le fichier CaseFolding.txt    63

    2.3.5 Le fichier CompositionExclusions.txt    64

    2.3.6 Le fichier DerivedAge.txt    65

    2.3.7 Le fichier DerivedCoreProperties.txt    65

    2.3.8 Le fichier EastAsianWidth.txt    66

    2.3.9 Le fichier HangulSyllableType.txt    67

    2.3.10 Le fichier Jamo.txt    67

    2.3.11 Le fichier LineBreak.txt    68

    2.3.12 Le fichier NamesList.txt    69

    2.3.13 Les fichiers de normalisation    72

        Le fichier DerivedNormalizationProps.txt    72

        Le fichier NormalizationTest.txt    72

        Le fichier NormalizationCorrections.txt    72

    2.3.14 Le fichier PropList.txt    72

    2.3.15 Les fichiers d'alias    74

    2.3.16 Le fichier Scripts.txt    74

    2.3.17 Le fichier SpecialCasing.txt    75

    2.3.18 Le fichier StandardizedVariants.txt    76

    2.3.19 Les fichiers extraits    76

2.4 Le fichier Unihan.txt    77

    2.4.1 Propriétés Unihan    79

2.5 Le répertoire auxiliaire    84

2.6 Récapitulation    85

Chapitre 3: Formes et schémas

3.1 Calcul des formes d'encodage    91

    3.1.1 UTF-32    91

    3.1.2 UTF-16    92

        Des codes-points aux subrogatifs    94

        Des subrogatifs aux codes-points    94

        Discussion    95

    3.1.3 UTF-8    97

        Des codes-points aux octets    99

        De U+0000 à U+007F    99

        De U+0080 à U+07FF    99

        De U+0800 à U+FFFF    99

        De U+10000 à U+10FFFF    100

        Des octets aux codes-points    102

        Séquence de deux octets    102

        Séquence de trois octets    102

        Séquence de quatre octets    103

        Discussion    103

3.2 Autres formes d'encodage    105

    3.2.1 La forme CESU-8    105

    3.2.2 La forme UTF-EBCDIC    107

    3.2.3 La forme UTF-7    107

3.3 Fonctionnement des schémas d'encodage    108

        Exemple    110

3.4 Les schémas de compression    111

    3.4.1 Le schéma standard de compression (SCSU)    111

    3.4.2 Le schéma binaire ordonné de compression (BOCU)    116

3.5 Le BOM    118

Chapitre 4: Clauses de conformité et définitions

4.1 Versions du standard Unicode    124

    4.1.1 Errata et corrigenda    124

    4.1.2 Stabilité    124

4.2 Clauses de conformité    126

    4.2.1 Ordre des octets    126

    4.2.2 Codes-points non assignés    127

    4.2.3 Interprétation    127

    4.2.4 Modification    128

    4.2.5 Formes d'encodage des caractères    128

    4.2.6 Schémas d'encodage des caractères    128

    4.2.7 Texte bidirectionnel    129

    4.2.8 Formes de normalisation    129

    4.2.9 Références normatives    129

    4.2.10 Algorithmes Unicode    130

    4.2.11 Opérations sur la casse des caractères    130

    4.2.12 Les annexes standard Unicode    130

4.3 Sémantique    131

    4.3.1 Définitions    131

    4.3.2 Identité des caractères    131

4.4 Caractères et encodage    132

4.5 Propriétés    133

    4.5.1 Propriétés normatives et informatives    133

    4.5.2 Propriétés simples et dérivées    134

    4.5.3 Alias de propriétés    135

    4.5.4 Valeurs par défaut    135

    4.5.5 Usage privé    135

4.6 Combinaison    136

4.7 Décomposition    137

    4.7.1 Décomposition de compatibilité    137

    4.7.2 Décomposition canonique    138

4.8 Subrogatifs    138

4.9 Formes d'encodage Unicode    139

    4.9.1 Les trois formes    140

    4.9.2 Conversions entre formes d'encodage    140

4.10 Schémas d'encodage Unicode    141

4.11 Classes combinatoires    142

4.12 Opérations sur la casse    142

Chapitre 5: Composition et décomposition

5.1 Nature des caractères    145

        Caractères décomposables    145

        Caractères de compatibilité    146

        Cas particuliers    148

5.2 Normalisation    149

    5.2.1 Définition des formes normalisées    149

    5.2.2 Implémentation des formes normalisées    152

        Décomposition    152

        Composition    153

    5.2.3 Détection des formes normalisées    154

    5.2.4 Stabilité par normalisation    155

5.3 Ordonnancement    156

        Exemple 1    158

        Exemple 2    159

5.4 Comportement des jamos coréens    160

    5.4.1 Noms des syllabes hanguls    161

Chapitre 6: Les algorithmes

6.1 Algorithme bidirectionnel    164

6.2 Détermination des coupures de ligne    166

6.3 Détermination des limites de texte    170

        Exemple des clusters    172

6.4 Algorithme de modification de casse    174

    6.4.1 Conformisation de casse    175

    6.4.2 Conformisation et normalisation    175

6.5 Algorithme de comparaison    176

    6.5.1 Les enjeux de la comparaison    176

    6.5.2 Comparaison à niveaux multiples    177

    6.5.3 L'algorithme par défaut d'Unicode    178

        Exemple    180

    6.5.4 Le fichier allkeys.txt    182

    6.5.5 Caractères à poids variable    183

    6.5.6 Calcul algorithmique des poids    184

    6.5.7 Poids des caractères de compatibilité    187

ANNEXES

Annexe A: Les blocs Unicode

Annexe B: Les alias de propriétés

B.1 Alias de propriétés    196

B.2 Alias de valeurs de propriétés    198

    B.2.1 Propriété Bidi    199

    B.2.2 Propriété Canonical    199

    B.2.3 Propriété Decomposition    200

    B.2.4 Propriété General    200

    B.2.5 Propriété Line    201

    B.2.6 Propriété Joining    201

    B.2.7 Propriété Joining    202

    B.2.8 Propriété Numeric    202

    B.2.9 Propriétés de Normalization    202

    B.2.10 Propriété East    202

    B.2.11 Propriété Hangul    202

B.3 Les codes de contrôle    203

Annexe C: Codes officiels des systèmes d écriture

Annexe D: Rapports techniques Unicode

Annexe E: Notes techniques Unicode

Annexe F: Lexique anglais-français

Annexe G: Acronymes

Annexe H: Historique du standard

Annexe I: Unicode sur l'Internet

Site officiel    227

Discussion et échange    228

Autres liens    228

    La bibliothèque ICU    228

Bibliographie

Index