regex/regcomp.c

   1 /*
   2  * Copyright (c) 1999 Apple Computer, Inc. All rights reserved.
   3  *
   4  * @APPLE_LICENSE_HEADER_START@
   5  *
   6  * Copyright (c) 1999-2003 Apple Computer, Inc.  All Rights Reserved.
   7  *
   8  * This file contains Original Code and/or Modifications of Original Code
   9  * as defined in and that are subject to the Apple Public Source License
  10  * Version 2.0 (the 'License'). You may not use this file except in
  11  * compliance with the License. Please obtain a copy of the License at
  12  * http://www.opensource.apple.com/apsl/ and read it before using this
  13  * file.
  14  *
  15  * The Original Code and all software distributed under the License are
  16  * distributed on an 'AS IS' basis, WITHOUT WARRANTY OF ANY KIND, EITHER
  17  * EXPRESS OR IMPLIED, AND APPLE HEREBY DISCLAIMS ALL SUCH WARRANTIES,
  18  * INCLUDING WITHOUT LIMITATION, ANY WARRANTIES OF MERCHANTABILITY,
  19  * FITNESS FOR A PARTICULAR PURPOSE, QUIET ENJOYMENT OR NON-INFRINGEMENT.
  20  * Please see the License for the specific language governing rights and
  21  * limitations under the License.
  22  *
  23  * @APPLE_LICENSE_HEADER_END@
  24  */
  25 /*
  26  * Copyright (c) 1992, 1993, 1994
  27  *      The Regents of the University of California.  All rights reserved.
  28  *
  29  * This code is derived from software contributed to Berkeley by
  30  * Henry Spencer.
  31  *
  32  * Redistribution and use in source and binary forms, with or without
  33  * modification, are permitted provided that the following conditions
  34  * are met:
  35  * 1. Redistributions of source code must retain the above copyright
  36  *    notice, this list of conditions and the following disclaimer.
  37  * 2. Redistributions in binary form must reproduce the above copyright
  38  *    notice, this list of conditions and the following disclaimer in the
  39  *    documentation and/or other materials provided with the distribution.
  40  * 3. All advertising materials mentioning features or use of this software
  41  *    must display the following acknowledgement:
  42  *      This product includes software developed by the University of
  43  *      California, Berkeley and its contributors.
  44  * 4. Neither the name of the University nor the names of its contributors
  45  *    may be used to endorse or promote products derived from this software
  46  *    without specific prior written permission.
  47  *
  48  * THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS ``AS IS'' AND
  49  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  50  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
  51  * ARE DISCLAIMED.  IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE
  52  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  53  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
  54  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
  55  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
  56  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
  57  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  58  * SUCH DAMAGE.
  59  */
  60
  61 #include <sys/types.h>
  62 #include <stdio.h>
  63 #include <string.h>
  64 #include <ctype.h>
  65 #include <limits.h>
  66 #include <stdlib.h>
  67 #include <regex.h>
  68
  69 #include "utils.h"
  70 #include "regex2.h"
  71
  72 #include "cclass.h"
  73 #include "cname.h"
  74
  75 /*
  76  * parse structure, passed up and down to avoid global variables and
  77  * other clumsinesses
  78  */
  79 struct parse {
  80         char *next;             /* next character in RE */
  81         char *end;              /* end of string (-> NUL normally) */
  82         int error;              /* has an error been seen? */
  83         sop *strip;             /* malloced strip */
  84         sopno ssize;            /* malloced strip size (allocated) */
  85         sopno slen;             /* malloced strip length (used) */
  86         int ncsalloc;           /* number of csets allocated */
  87         struct re_guts *g;
  88 #       define  NPAREN  10      /* we need to remember () 1-9 for back refs */
  89         sopno pbegin[NPAREN];   /* -> ( ([0] unused) */
  90         sopno pend[NPAREN];     /* -> ) ([0] unused) */
  91 };
  92
  93 /* ========= begin header generated by ./mkh ========= */
  94 #ifdef __cplusplus
  95 extern "C" {
  96 #endif
  97
  98 /* === regcomp.c === */
  99 static void p_ere __P((struct parse *p, int stop));
 100 static void p_ere_exp __P((struct parse *p));
 101 static void p_str __P((struct parse *p));
 102 static void p_bre __P((struct parse *p, int end1, int end2));
 103 static int p_simp_re __P((struct parse *p, int starordinary));
 104 static int p_count __P((struct parse *p));
 105 static void p_bracket __P((struct parse *p));
 106 static void p_b_term __P((struct parse *p, cset *cs));
 107 static void p_b_cclass __P((struct parse *p, cset *cs));
 108 static void p_b_eclass __P((struct parse *p, cset *cs));
 109 static char p_b_symbol __P((struct parse *p));
 110 static char p_b_coll_elem __P((struct parse *p, int endc));
 111 static char othercase __P((int ch));
 112 static void bothcases __P((struct parse *p, int ch));
 113 static void ordinary __P((struct parse *p, int ch));
 114 static void nonnewline __P((struct parse *p));
 115 static void repeat __P((struct parse *p, sopno start, int from, int to));
 116 static int seterr __P((struct parse *p, int e));
 117 static cset *allocset __P((struct parse *p));
 118 static void freeset __P((struct parse *p, cset *cs));
 119 static int freezeset __P((struct parse *p, cset *cs));
 120 static int firstch __P((struct parse *p, cset *cs));
 121 static int nch __P((struct parse *p, cset *cs));
 122 static void mcadd __P((struct parse *p, cset *cs, char *cp));
 123 static void mcsub __P((cset *cs, char *cp));
 124 static int mcin __P((cset *cs, char *cp));
 125 static char *mcfind __P((cset *cs, char *cp));
 126 static void mcinvert __P((struct parse *p, cset *cs));
 127 static void mccase __P((struct parse *p, cset *cs));
 128 static int isinsets __P((struct re_guts *g, int c));
 129 static int samesets __P((struct re_guts *g, int c1, int c2));
 130 static void categorize __P((struct parse *p, struct re_guts *g));
 131 static sopno dupl __P((struct parse *p, sopno start, sopno finish));
 132 static void doemit __P((struct parse *p, sop op, size_t opnd));
 133 static void doinsert __P((struct parse *p, sop op, size_t opnd, sopno pos));
 134 static void dofwd __P((struct parse *p, sopno pos, sop value));
 135 static void enlarge __P((struct parse *p, sopno size));
 136 static void stripsnug __P((struct parse *p, struct re_guts *g));
 137 static void findmust __P((struct parse *p, struct re_guts *g));
 138 static sopno pluscount __P((struct parse *p, struct re_guts *g));
 139
 140 #ifdef __cplusplus
 141 }
 142 #endif
 143 /* ========= end header generated by ./mkh ========= */
 144
 145 static char nuls[10];           /* place to point scanner in event of error */
 146
 147 /*
 148  * macros for use with parse structure
 149  * BEWARE:  these know that the parse structure is named `p' !!!
 150  */
 151 #define PEEK()  (*p->next)
 152 #define PEEK2() (*(p->next+1))
 153 #define MORE()  (p->next < p->end)
 154 #define MORE2() (p->next+1 < p->end)
 155 #define SEE(c)  (MORE() && PEEK() == (c))
 156 #define SEETWO(a, b)    (MORE() && MORE2() && PEEK() == (a) && PEEK2() == (b))
 157 #define EAT(c)  ((SEE(c)) ? (NEXT(), 1) : 0)
 158 #define EATTWO(a, b)    ((SEETWO(a, b)) ? (NEXT2(), 1) : 0)
 159 #define NEXT()  (p->next++)
 160 #define NEXT2() (p->next += 2)
 161 #define NEXTn(n)        (p->next += (n))
 162 #define GETNEXT()       (*p->next++)
 163 #define SETERROR(e)     seterr(p, (e))
 164 #define REQUIRE(co, e)  ((co) || SETERROR(e))
 165 #define MUSTSEE(c, e)   (REQUIRE(MORE() && PEEK() == (c), e))
 166 #define MUSTEAT(c, e)   (REQUIRE(MORE() && GETNEXT() == (c), e))
 167 #define MUSTNOTSEE(c, e)        (REQUIRE(!MORE() || PEEK() != (c), e))
 168 #define EMIT(op, sopnd) doemit(p, (sop)(op), (size_t)(sopnd))
 169 #define INSERT(op, pos) doinsert(p, (sop)(op), HERE()-(pos)+1, pos)
 170 #define AHEAD(pos)              dofwd(p, pos, HERE()-(pos))
 171 #define ASTERN(sop, pos)        EMIT(sop, HERE()-pos)
 172 #define HERE()          (p->slen)
 173 #define THERE()         (p->slen - 1)
 174 #define THERETHERE()    (p->slen - 2)
 175 #define DROP(n) (p->slen -= (n))
 176
 177 #ifndef NDEBUG
 178 static int never = 0;           /* for use in asserts; shuts lint up */
 179 #else
 180 #define never   0               /* some <assert.h>s have bugs too */
 181 #endif
 182
 183 /*
 184  - regcomp - interface for parser and compilation
 185  = extern int regcomp(regex_t *, const char *, int);
 186  = #define      REG_BASIC       0000
 187  = #define      REG_EXTENDED    0001
 188  = #define      REG_ICASE       0002
 189  = #define      REG_NOSUB       0004
 190  = #define      REG_NEWLINE     0010
 191  = #define      REG_NOSPEC      0020
 192  = #define      REG_PEND        0040
 193  = #define      REG_DUMP        0200
 194  */
 195 int                             /* 0 success, otherwise REG_something */
 196 regcomp(preg, pattern, cflags)
 197 regex_t *preg;
 198 const char *pattern;
 199 int cflags;
 200 {
 201         struct parse pa;
 202         register struct re_guts *g;
 203         register struct parse *p = &pa;
 204         register int i;
 205         register size_t len;
 206 #ifdef REDEBUG
 207 #       define  GOODFLAGS(f)    (f)
 208 #else
 209 #       define  GOODFLAGS(f)    ((f)&~REG_DUMP)
 210 #endif
 211
 212         cflags = GOODFLAGS(cflags);
 213         if ((cflags&REG_EXTENDED) && (cflags&REG_NOSPEC))
 214                 return(REG_INVARG);
 215
 216         if (cflags&REG_PEND) {
 217                 if (preg->re_endp < pattern)
 218                         return(REG_INVARG);
 219                 len = preg->re_endp - pattern;
 220         } else
 221                 len = strlen((char *)pattern);
 222
 223         /* do the mallocs early so failure handling is easy */
 224         g = (struct re_guts *)malloc(sizeof(struct re_guts) +
 225                                                         (NC-1)*sizeof(cat_t));
 226         if (g == NULL)
 227                 return(REG_ESPACE);
 228         p->ssize = len/(size_t)2*(size_t)3 + (size_t)1; /* ugh */
 229         p->strip = (sop *)malloc(p->ssize * sizeof(sop));
 230         p->slen = 0;
 231         if (p->strip == NULL) {
 232                 free((char *)g);
 233                 return(REG_ESPACE);
 234         }
 235
 236         /* set things up */
 237         p->g = g;
 238         p->next = (char *)pattern;      /* convenience; we do not modify it */
 239         p->end = p->next + len;
 240         p->error = 0;
 241         p->ncsalloc = 0;
 242         for (i = 0; i < NPAREN; i++) {
 243                 p->pbegin[i] = 0;
 244                 p->pend[i] = 0;
 245         }
 246         g->csetsize = NC;
 247         g->sets = NULL;
 248         g->setbits = NULL;
 249         g->ncsets = 0;
 250         g->cflags = cflags;
 251         g->iflags = 0;
 252         g->nbol = 0;
 253         g->neol = 0;
 254         g->must = NULL;
 255         g->mlen = 0;
 256         g->nsub = 0;
 257         g->ncategories = 1;     /* category 0 is "everything else" */
 258         g->categories = &g->catspace[-(CHAR_MIN)];
 259         (void) memset((char *)g->catspace, 0, NC*sizeof(cat_t));
 260         g->backrefs = 0;
 261
 262         /* do it */
 263         EMIT(OEND, 0);
 264         g->firststate = THERE();
 265         if (cflags&REG_EXTENDED)
 266                 p_ere(p, OUT);
 267         else if (cflags&REG_NOSPEC)
 268                 p_str(p);
 269         else
 270                 p_bre(p, OUT, OUT);
 271         EMIT(OEND, 0);
 272         g->laststate = THERE();
 273
 274         /* tidy up loose ends and fill things in */
 275         categorize(p, g);
 276         stripsnug(p, g);
 277         findmust(p, g);
 278         g->nplus = pluscount(p, g);
 279         g->magic = MAGIC2;
 280         preg->re_nsub = g->nsub;
 281         preg->re_g = g;
 282         preg->re_magic = MAGIC1;
 283 #ifndef REDEBUG
 284         /* not debugging, so can't rely on the assert() in regexec() */
 285         if (g->iflags&BAD)
 286                 SETERROR(REG_ASSERT);
 287 #endif
 288
 289         /* win or lose, we're done */
 290         if (p->error != 0)      /* lose */
 291                 regfree(preg);
 292         return(p->error);
 293 }
 294
 295 /*
 296  - p_ere - ERE parser top level, concatenation and alternation
 297  == static void p_ere(register struct parse *p, int stop);
 298  */
 299 static void
 300 p_ere(p, stop)
 301 register struct parse *p;
 302 int stop;                       /* character this ERE should end at */
 303 {
 304         register char c;
 305         register sopno prevback;
 306         register sopno prevfwd;
 307         register sopno conc;
 308         register int first = 1;         /* is this the first alternative? */
 309
 310         for (;;) {
 311                 /* do a bunch of concatenated expressions */
 312                 conc = HERE();
 313                 while (MORE() && (c = PEEK()) != '|' && c != stop)
 314                         p_ere_exp(p);
 315                 REQUIRE(HERE() != conc, REG_EMPTY);     /* require nonempty */
 316
 317                 if (!EAT('|'))
 318                         break;          /* NOTE BREAK OUT */
 319
 320                 if (first) {
 321                         INSERT(OCH_, conc);     /* offset is wrong */
 322                         prevfwd = conc;
 323                         prevback = conc;
 324                         first = 0;
 325                 }
 326                 ASTERN(OOR1, prevback);
 327                 prevback = THERE();
 328                 AHEAD(prevfwd);                 /* fix previous offset */
 329                 prevfwd = HERE();
 330                 EMIT(OOR2, 0);                  /* offset is very wrong */
 331         }
 332
 333         if (!first) {           /* tail-end fixups */
 334                 AHEAD(prevfwd);
 335                 ASTERN(O_CH, prevback);
 336         }
 337
 338         assert(!MORE() || SEE(stop));
 339 }
 340
 341 /*
 342  - p_ere_exp - parse one subERE, an atom possibly followed by a repetition op
 343  == static void p_ere_exp(register struct parse *p);
 344  */
 345 static void
 346 p_ere_exp(p)
 347 register struct parse *p;
 348 {
 349         register char c;
 350         register sopno pos;
 351         register int count;
 352         register int count2;
 353         register sopno subno;
 354         int wascaret = 0;
 355
 356         assert(MORE());         /* caller should have ensured this */
 357         c = GETNEXT();
 358
 359         pos = HERE();
 360         switch (c) {
 361         case '(':
 362                 REQUIRE(MORE(), REG_EPAREN);
 363                 p->g->nsub++;
 364                 subno = p->g->nsub;
 365                 if (subno < NPAREN)
 366                         p->pbegin[subno] = HERE();
 367                 EMIT(OLPAREN, subno);
 368                 if (!SEE(')'))
 369                         p_ere(p, ')');
 370                 if (subno < NPAREN) {
 371                         p->pend[subno] = HERE();
 372                         assert(p->pend[subno] != 0);
 373                 }
 374                 EMIT(ORPAREN, subno);
 375                 MUSTEAT(')', REG_EPAREN);
 376                 break;
 377 #ifndef POSIX_MISTAKE
 378         case ')':               /* happens only if no current unmatched ( */
 379                 /*
 380                  * You may ask, why the ifndef?  Because I didn't notice
 381                  * this until slightly too late for 1003.2, and none of the
 382                  * other 1003.2 regular-expression reviewers noticed it at
 383                  * all.  So an unmatched ) is legal POSIX, at least until
 384                  * we can get it fixed.
 385                  */
 386                 SETERROR(REG_EPAREN);
 387                 break;
 388 #endif
 389         case '^':
 390                 EMIT(OBOL, 0);
 391                 p->g->iflags |= USEBOL;
 392                 p->g->nbol++;
 393                 wascaret = 1;
 394                 break;
 395         case '$':
 396                 EMIT(OEOL, 0);
 397                 p->g->iflags |= USEEOL;
 398                 p->g->neol++;
 399                 break;
 400         case '|':
 401                 SETERROR(REG_EMPTY);
 402                 break;
 403         case '*':
 404         case '+':
 405         case '?':
 406                 SETERROR(REG_BADRPT);
 407                 break;
 408         case '.':
 409                 if (p->g->cflags&REG_NEWLINE)
 410                         nonnewline(p);
 411                 else
 412                         EMIT(OANY, 0);
 413                 break;
 414         case '[':
 415                 p_bracket(p);
 416                 break;
 417         case '\\':
 418                 REQUIRE(MORE(), REG_EESCAPE);
 419                 c = GETNEXT();
 420                 ordinary(p, c);
 421                 break;
 422         case '{':               /* okay as ordinary except if digit follows */
 423                 REQUIRE(!MORE() || !isdigit(PEEK()), REG_BADRPT);
 424                 /* FALLTHROUGH */
 425         default:
 426                 ordinary(p, c);
 427                 break;
 428         }
 429
 430         if (!MORE())
 431                 return;
 432         c = PEEK();
 433         /* we call { a repetition if followed by a digit */
 434         if (!( c == '*' || c == '+' || c == '?' ||
 435                                 (c == '{' && MORE2() && isdigit(PEEK2())) ))
 436                 return;         /* no repetition, we're done */
 437         NEXT();
 438
 439         REQUIRE(!wascaret, REG_BADRPT);
 440         switch (c) {
 441         case '*':       /* implemented as +? */
 442                 /* this case does not require the (y|) trick, noKLUDGE */
 443                 INSERT(OPLUS_, pos);
 444                 ASTERN(O_PLUS, pos);
 445                 INSERT(OQUEST_, pos);
 446                 ASTERN(O_QUEST, pos);
 447                 break;
 448         case '+':
 449                 INSERT(OPLUS_, pos);
 450                 ASTERN(O_PLUS, pos);
 451                 break;
 452         case '?':
 453                 /* KLUDGE: emit y? as (y|) until subtle bug gets fixed */
 454                 INSERT(OCH_, pos);              /* offset slightly wrong */
 455                 ASTERN(OOR1, pos);              /* this one's right */
 456                 AHEAD(pos);                     /* fix the OCH_ */
 457                 EMIT(OOR2, 0);                  /* offset very wrong... */
 458                 AHEAD(THERE());                 /* ...so fix it */
 459                 ASTERN(O_CH, THERETHERE());
 460                 break;
 461         case '{':
 462                 count = p_count(p);
 463                 if (EAT(',')) {
 464                         if (isdigit(PEEK())) {
 465                                 count2 = p_count(p);
 466                                 REQUIRE(count <= count2, REG_BADBR);
 467                         } else          /* single number with comma */
 468                                 count2 = INFINITY;
 469                 } else          /* just a single number */
 470                         count2 = count;
 471                 repeat(p, pos, count, count2);
 472                 if (!EAT('}')) {        /* error heuristics */
 473                         while (MORE() && PEEK() != '}')
 474                                 NEXT();
 475                         REQUIRE(MORE(), REG_EBRACE);
 476                         SETERROR(REG_BADBR);
 477                 }
 478                 break;
 479         }
 480
 481         if (!MORE())
 482                 return;
 483         c = PEEK();
 484         if (!( c == '*' || c == '+' || c == '?' ||
 485                                 (c == '{' && MORE2() && isdigit(PEEK2())) ) )
 486                 return;
 487         SETERROR(REG_BADRPT);
 488 }
 489
 490 /*
 491  - p_str - string (no metacharacters) "parser"
 492  == static void p_str(register struct parse *p);
 493  */
 494 static void
 495 p_str(p)
 496 register struct parse *p;
 497 {
 498         REQUIRE(MORE(), REG_EMPTY);
 499         while (MORE())
 500                 ordinary(p, GETNEXT());
 501 }
 502
 503 /*
 504  - p_bre - BRE parser top level, anchoring and concatenation
 505  == static void p_bre(register struct parse *p, register int end1, \
 506  ==     register int end2);
 507  * Giving end1 as OUT essentially eliminates the end1/end2 check.
 508  *
 509  * This implementation is a bit of a kludge, in that a trailing $ is first
 510  * taken as an ordinary character and then revised to be an anchor.  The
 511  * only undesirable side effect is that '$' gets included as a character
 512  * category in such cases.  This is fairly harmless; not worth fixing.
 513  * The amount of lookahead needed to avoid this kludge is excessive.
 514  */
 515 static void
 516 p_bre(p, end1, end2)
 517 register struct parse *p;
 518 register int end1;              /* first terminating character */
 519 register int end2;              /* second terminating character */
 520 {
 521         register sopno start = HERE();
 522         register int first = 1;                 /* first subexpression? */
 523         register int wasdollar = 0;
 524
 525         if (EAT('^')) {
 526                 EMIT(OBOL, 0);
 527                 p->g->iflags |= USEBOL;
 528                 p->g->nbol++;
 529         }
 530         while (MORE() && !SEETWO(end1, end2)) {
 531                 wasdollar = p_simp_re(p, first);
 532                 first = 0;
 533         }
 534         if (wasdollar) {        /* oops, that was a trailing anchor */
 535                 DROP(1);
 536                 EMIT(OEOL, 0);
 537                 p->g->iflags |= USEEOL;
 538                 p->g->neol++;
 539         }
 540
 541         REQUIRE(HERE() != start, REG_EMPTY);    /* require nonempty */
 542 }
 543
 544 /*
 545  - p_simp_re - parse a simple RE, an atom possibly followed by a repetition
 546  == static int p_simp_re(register struct parse *p, int starordinary);
 547  */
 548 static int                      /* was the simple RE an unbackslashed $? */
 549 p_simp_re(p, starordinary)
 550 register struct parse *p;
 551 int starordinary;               /* is a leading * an ordinary character? */
 552 {
 553         register int c;
 554         register int count;
 555         register int count2;
 556         register sopno pos;
 557         register int i;
 558         register sopno subno;
 559 #       define  BACKSL  (1<<CHAR_BIT)
 560
 561         pos = HERE();           /* repetion op, if any, covers from here */
 562
 563         assert(MORE());         /* caller should have ensured this */
 564         c = GETNEXT();
 565         if (c == '\\') {
 566                 REQUIRE(MORE(), REG_EESCAPE);
 567                 c = BACKSL | (unsigned char)GETNEXT();
 568         }
 569         switch (c) {
 570         case '.':
 571                 if (p->g->cflags&REG_NEWLINE)
 572                         nonnewline(p);
 573                 else
 574                         EMIT(OANY, 0);
 575                 break;
 576         case '[':
 577                 p_bracket(p);
 578                 break;
 579         case BACKSL|'{':
 580                 SETERROR(REG_BADRPT);
 581                 break;
 582         case BACKSL|'(':
 583                 p->g->nsub++;
 584                 subno = p->g->nsub;
 585                 if (subno < NPAREN)
 586                         p->pbegin[subno] = HERE();
 587                 EMIT(OLPAREN, subno);
 588                 /* the MORE here is an error heuristic */
 589                 if (MORE() && !SEETWO('\\', ')'))
 590                         p_bre(p, '\\', ')');
 591                 if (subno < NPAREN) {
 592                         p->pend[subno] = HERE();
 593                         assert(p->pend[subno] != 0);
 594                 }
 595                 EMIT(ORPAREN, subno);
 596                 REQUIRE(EATTWO('\\', ')'), REG_EPAREN);
 597                 break;
 598         case BACKSL|')':        /* should not get here -- must be user */
 599         case BACKSL|'}':
 600                 SETERROR(REG_EPAREN);
 601                 break;
 602         case BACKSL|'1':
 603         case BACKSL|'2':
 604         case BACKSL|'3':
 605         case BACKSL|'4':
 606         case BACKSL|'5':
 607         case BACKSL|'6':
 608         case BACKSL|'7':
 609         case BACKSL|'8':
 610         case BACKSL|'9':
 611                 i = (c&~BACKSL) - '0';
 612                 assert(i < NPAREN);
 613                 if (p->pend[i] != 0) {
 614                         assert(i <= p->g->nsub);
 615                         EMIT(OBACK_, i);
 616                         assert(p->pbegin[i] != 0);
 617                         assert(OP(p->strip[p->pbegin[i]]) == OLPAREN);
 618                         assert(OP(p->strip[p->pend[i]]) == ORPAREN);
 619                         (void) dupl(p, p->pbegin[i]+1, p->pend[i]);
 620                         EMIT(O_BACK, i);
 621                 } else
 622                         SETERROR(REG_ESUBREG);
 623                 p->g->backrefs = 1;
 624                 break;
 625         case '*':
 626                 REQUIRE(starordinary, REG_BADRPT);
 627                 /* FALLTHROUGH */
 628         default:
 629                 ordinary(p, c &~ BACKSL);
 630                 break;
 631         }
 632
 633         if (EAT('*')) {         /* implemented as +? */
 634                 /* this case does not require the (y|) trick, noKLUDGE */
 635                 INSERT(OPLUS_, pos);
 636                 ASTERN(O_PLUS, pos);
 637                 INSERT(OQUEST_, pos);
 638                 ASTERN(O_QUEST, pos);
 639         } else if (EATTWO('\\', '{')) {
 640                 count = p_count(p);
 641                 if (EAT(',')) {
 642                         if (MORE() && isdigit(PEEK())) {
 643                                 count2 = p_count(p);
 644                                 REQUIRE(count <= count2, REG_BADBR);
 645                         } else          /* single number with comma */
 646                                 count2 = INFINITY;
 647                 } else          /* just a single number */
 648                         count2 = count;
 649                 repeat(p, pos, count, count2);
 650                 if (!EATTWO('\\', '}')) {       /* error heuristics */
 651                         while (MORE() && !SEETWO('\\', '}'))
 652                                 NEXT();
 653                         REQUIRE(MORE(), REG_EBRACE);
 654                         SETERROR(REG_BADBR);
 655                 }
 656         } else if (c == (unsigned char)'$')     /* $ (but not \$) ends it */
 657                 return(1);
 658
 659         return(0);
 660 }
 661
 662 /*
 663  - p_count - parse a repetition count
 664  == static int p_count(register struct parse *p);
 665  */
 666 static int                      /* the value */
 667 p_count(p)
 668 register struct parse *p;
 669 {
 670         register int count = 0;
 671         register int ndigits = 0;
 672
 673         while (MORE() && isdigit(PEEK()) && count <= DUPMAX) {
 674                 count = count*10 + (GETNEXT() - '0');
 675                 ndigits++;
 676         }
 677
 678         REQUIRE(ndigits > 0 && count <= DUPMAX, REG_BADBR);
 679         return(count);
 680 }
 681
 682 /*
 683  - p_bracket - parse a bracketed character list
 684  == static void p_bracket(register struct parse *p);
 685  *
 686  * Note a significant property of this code:  if the allocset() did SETERROR,
 687  * no set operations are done.
 688  */
 689 static void
 690 p_bracket(p)
 691 register struct parse *p;
 692 {
 693         register char c;
 694         register cset *cs = allocset(p);
 695         register int invert = 0;
 696
 697         /* Dept of Truly Sickening Special-Case Kludges */
 698         if (p->next + 5 < p->end && strncmp(p->next, "[:<:]]", 6) == 0) {
 699                 EMIT(OBOW, 0);
 700                 NEXTn(6);
 701                 return;
 702         }
 703         if (p->next + 5 < p->end && strncmp(p->next, "[:>:]]", 6) == 0) {
 704                 EMIT(OEOW, 0);
 705                 NEXTn(6);
 706                 return;
 707         }
 708
 709         if (EAT('^'))
 710                 invert++;       /* make note to invert set at end */
 711         if (EAT(']'))
 712                 CHadd(cs, ']');
 713         else if (EAT('-'))
 714                 CHadd(cs, '-');
 715         while (MORE() && PEEK() != ']' && !SEETWO('-', ']'))
 716                 p_b_term(p, cs);
 717         if (EAT('-'))
 718                 CHadd(cs, '-');
 719         MUSTEAT(']', REG_EBRACK);
 720
 721         if (p->error != 0)      /* don't mess things up further */
 722                 return;
 723
 724         if (p->g->cflags&REG_ICASE) {
 725                 register int i;
 726                 register int ci;
 727
 728                 for (i = p->g->csetsize - 1; i >= 0; i--)
 729                         if (CHIN(cs, i) && isalpha(i)) {
 730                                 ci = othercase(i);
 731                                 if (ci != i)
 732                                         CHadd(cs, ci);
 733                         }
 734                 if (cs->multis != NULL)
 735                         mccase(p, cs);
 736         }
 737         if (invert) {
 738                 register int i;
 739
 740                 for (i = p->g->csetsize - 1; i >= 0; i--)
 741                         if (CHIN(cs, i))
 742                                 CHsub(cs, i);
 743                         else
 744                                 CHadd(cs, i);
 745                 if (p->g->cflags&REG_NEWLINE)
 746                         CHsub(cs, '\n');
 747                 if (cs->multis != NULL)
 748                         mcinvert(p, cs);
 749         }
 750
 751         assert(cs->multis == NULL);             /* xxx */
 752
 753         if (nch(p, cs) == 1) {          /* optimize singleton sets */
 754                 ordinary(p, firstch(p, cs));
 755                 freeset(p, cs);
 756         } else
 757                 EMIT(OANYOF, freezeset(p, cs));
 758 }
 759
 760 /*
 761  - p_b_term - parse one term of a bracketed character list
 762  == static void p_b_term(register struct parse *p, register cset *cs);
 763  */
 764 static void
 765 p_b_term(p, cs)
 766 register struct parse *p;
 767 register cset *cs;
 768 {
 769         register char c;
 770         register char start, finish;
 771         register int i;
 772
 773         /* classify what we've got */
 774         switch ((MORE()) ? PEEK() : '\0') {
 775         case '[':
 776                 c = (MORE2()) ? PEEK2() : '\0';
 777                 break;
 778         case '-':
 779                 SETERROR(REG_ERANGE);
 780                 return;                 /* NOTE RETURN */
 781                 break;
 782         default:
 783                 c = '\0';
 784                 break;
 785         }
 786
 787         switch (c) {
 788         case ':':               /* character class */
 789                 NEXT2();
 790                 REQUIRE(MORE(), REG_EBRACK);
 791                 c = PEEK();
 792                 REQUIRE(c != '-' && c != ']', REG_ECTYPE);
 793                 p_b_cclass(p, cs);
 794                 REQUIRE(MORE(), REG_EBRACK);
 795                 REQUIRE(EATTWO(':', ']'), REG_ECTYPE);
 796                 break;
 797         case '=':               /* equivalence class */
 798                 NEXT2();
 799                 REQUIRE(MORE(), REG_EBRACK);
 800                 c = PEEK();
 801                 REQUIRE(c != '-' && c != ']', REG_ECOLLATE);
 802                 p_b_eclass(p, cs);
 803                 REQUIRE(MORE(), REG_EBRACK);
 804                 REQUIRE(EATTWO('=', ']'), REG_ECOLLATE);
 805                 break;
 806         default:                /* symbol, ordinary character, or range */
 807 /* xxx revision needed for multichar stuff */
 808                 start = p_b_symbol(p);
 809                 if (SEE('-') && MORE2() && PEEK2() != ']') {
 810                         /* range */
 811                         NEXT();
 812                         if (EAT('-'))
 813                                 finish = '-';
 814                         else
 815                                 finish = p_b_symbol(p);
 816                 } else
 817                         finish = start;
 818 /* xxx what about signed chars here... */
 819                 REQUIRE(start <= finish, REG_ERANGE);
 820                 for (i = start; i <= finish; i++)
 821                         CHadd(cs, i);
 822                 break;
 823         }
 824 }
 825
 826 /*
 827  - p_b_cclass - parse a character-class name and deal with it
 828  == static void p_b_cclass(register struct parse *p, register cset *cs);
 829  */
 830 static void
 831 p_b_cclass(p, cs)
 832 register struct parse *p;
 833 register cset *cs;
 834 {
 835         register char *sp = p->next;
 836         register struct cclass *cp;
 837         register size_t len;
 838         register char *u;
 839         register char c;
 840
 841         while (MORE() && isalpha(PEEK()))
 842                 NEXT();
 843         len = p->next - sp;
 844         for (cp = cclasses; cp->name != NULL; cp++)
 845                 if (strncmp(cp->name, sp, len) == 0 && cp->name[len] == '\0')
 846                         break;
 847         if (cp->name == NULL) {
 848                 /* oops, didn't find it */
 849                 SETERROR(REG_ECTYPE);
 850                 return;
 851         }
 852
 853         u = cp->chars;
 854         while ((c = *u++) != '\0')
 855                 CHadd(cs, c);
 856         for (u = cp->multis; *u != '\0'; u += strlen(u) + 1)
 857                 MCadd(p, cs, u);
 858 }
 859
 860 /*
 861  - p_b_eclass - parse an equivalence-class name and deal with it
 862  == static void p_b_eclass(register struct parse *p, register cset *cs);
 863  *
 864  * This implementation is incomplete. xxx
 865  */
 866 static void
 867 p_b_eclass(p, cs)
 868 register struct parse *p;
 869 register cset *cs;
 870 {
 871         register char c;
 872
 873         c = p_b_coll_elem(p, '=');
 874         CHadd(cs, c);
 875 }
 876
 877 /*
 878  - p_b_symbol - parse a character or [..]ed multicharacter collating symbol
 879  == static char p_b_symbol(register struct parse *p);
 880  */
 881 static char                     /* value of symbol */
 882 p_b_symbol(p)
 883 register struct parse *p;
 884 {
 885         register char value;
 886
 887         REQUIRE(MORE(), REG_EBRACK);
 888         if (!EATTWO('[', '.'))
 889                 return(GETNEXT());
 890
 891         /* collating symbol */
 892         value = p_b_coll_elem(p, '.');
 893         REQUIRE(EATTWO('.', ']'), REG_ECOLLATE);
 894         return(value);
 895 }
 896
 897 /*
 898  - p_b_coll_elem - parse a collating-element name and look it up
 899  == static char p_b_coll_elem(register struct parse *p, int endc);
 900  */
 901 static char                     /* value of collating element */
 902 p_b_coll_elem(p, endc)
 903 register struct parse *p;
 904 int endc;                       /* name ended by endc,']' */
 905 {
 906         register char *sp = p->next;
 907         register struct cname *cp;
 908         register int len;
 909         register char c;
 910
 911         while (MORE() && !SEETWO(endc, ']'))
 912                 NEXT();
 913         if (!MORE()) {
 914                 SETERROR(REG_EBRACK);
 915                 return(0);
 916         }
 917         len = p->next - sp;
 918         for (cp = cnames; cp->name != NULL; cp++)
 919                 if (strncmp(cp->name, sp, len) == 0 && cp->name[len] == '\0')
 920                         return(cp->code);       /* known name */
 921         if (len == 1)
 922                 return(*sp);    /* single character */
 923         SETERROR(REG_ECOLLATE);                 /* neither */
 924         return(0);
 925 }
 926
 927 /*
 928  - othercase - return the case counterpart of an alphabetic
 929  == static char othercase(int ch);
 930  */
 931 static char                     /* if no counterpart, return ch */
 932 othercase(ch)
 933 int ch;
 934 {
 935         assert(isalpha(ch));
 936         if (isupper(ch))
 937                 return(tolower(ch));
 938         else if (islower(ch))
 939                 return(toupper(ch));
 940         else                    /* peculiar, but could happen */
 941                 return(ch);
 942 }
 943
 944 /*
 945  - bothcases - emit a dualcase version of a two-case character
 946  == static void bothcases(register struct parse *p, int ch);
 947  *
 948  * Boy, is this implementation ever a kludge...
 949  */
 950 static void
 951 bothcases(p, ch)
 952 register struct parse *p;
 953 int ch;
 954 {
 955         register char *oldnext = p->next;
 956         register char *oldend = p->end;
 957         char bracket[3];
 958
 959         assert(othercase(ch) != ch);    /* p_bracket() would recurse */
 960         p->next = bracket;
 961         p->end = bracket+2;
 962         bracket[0] = ch;
 963         bracket[1] = ']';
 964         bracket[2] = '\0';
 965         p_bracket(p);
 966         assert(p->next == bracket+2);
 967         p->next = oldnext;
 968         p->end = oldend;
 969 }
 970
 971 /*
 972  - ordinary - emit an ordinary character
 973  == static void ordinary(register struct parse *p, register int ch);
 974  */
 975 static void
 976 ordinary(p, ch)
 977 register struct parse *p;
 978 register int ch;
 979 {
 980         register cat_t *cap = p->g->categories;
 981
 982         if ((p->g->cflags&REG_ICASE) && isalpha(ch) && othercase(ch) != ch)
 983                 bothcases(p, ch);
 984         else {
 985                 EMIT(OCHAR, (unsigned char)ch);
 986                 if (cap[ch] == 0)
 987                         cap[ch] = p->g->ncategories++;
 988         }
 989 }
 990
 991 /*
 992  - nonnewline - emit REG_NEWLINE version of OANY
 993  == static void nonnewline(register struct parse *p);
 994  *
 995  * Boy, is this implementation ever a kludge...
 996  */
 997 static void
 998 nonnewline(p)
 999 register struct parse *p;
1000 {
1001         register char *oldnext = p->next;
1002         register char *oldend = p->end;
1003         char bracket[4];
1004
1005         p->next = bracket;
1006         p->end = bracket+3;
1007         bracket[0] = '^';
1008         bracket[1] = '\n';
1009         bracket[2] = ']';
1010         bracket[3] = '\0';
1011         p_bracket(p);
1012         assert(p->next == bracket+3);
1013         p->next = oldnext;
1014         p->end = oldend;
1015 }
1016
1017 /*
1018  - repeat - generate code for a bounded repetition, recursively if needed
1019  == static void repeat(register struct parse *p, sopno start, int from, int to);
1020  */
1021 static void
1022 repeat(p, start, from, to)
1023 register struct parse *p;
1024 sopno start;                    /* operand from here to end of strip */
1025 int from;                       /* repeated from this number */
1026 int to;                         /* to this number of times (maybe INFINITY) */
1027 {
1028         register sopno finish = HERE();
1029 #       define  N       2
1030 #       define  INF     3
1031 #       define  REP(f, t)       ((f)*8 + (t))
1032 #       define  MAP(n)  (((n) <= 1) ? (n) : ((n) == INFINITY) ? INF : N)
1033         register sopno copy;
1034
1035         if (p->error != 0)      /* head off possible runaway recursion */
1036                 return;
1037
1038         assert(from <= to);
1039
1040         switch (REP(MAP(from), MAP(to))) {
1041         case REP(0, 0):                 /* must be user doing this */
1042                 DROP(finish-start);     /* drop the operand */
1043                 break;
1044         case REP(0, 1):                 /* as x{1,1}? */
1045         case REP(0, N):                 /* as x{1,n}? */
1046         case REP(0, INF):               /* as x{1,}? */
1047                 /* KLUDGE: emit y? as (y|) until subtle bug gets fixed */
1048                 INSERT(OCH_, start);            /* offset is wrong... */
1049                 repeat(p, start+1, 1, to);
1050                 ASTERN(OOR1, start);
1051                 AHEAD(start);                   /* ... fix it */
1052                 EMIT(OOR2, 0);
1053                 AHEAD(THERE());
1054                 ASTERN(O_CH, THERETHERE());
1055                 break;
1056         case REP(1, 1):                 /* trivial case */
1057                 /* done */
1058                 break;
1059         case REP(1, N):                 /* as x?x{1,n-1} */
1060                 /* KLUDGE: emit y? as (y|) until subtle bug gets fixed */
1061                 INSERT(OCH_, start);
1062                 ASTERN(OOR1, start);
1063                 AHEAD(start);
1064                 EMIT(OOR2, 0);                  /* offset very wrong... */
1065                 AHEAD(THERE());                 /* ...so fix it */
1066                 ASTERN(O_CH, THERETHERE());
1067                 copy = dupl(p, start+1, finish+1);
1068                 assert(copy == finish+4);
1069                 repeat(p, copy, 1, to-1);
1070                 break;
1071         case REP(1, INF):               /* as x+ */
1072                 INSERT(OPLUS_, start);
1073                 ASTERN(O_PLUS, start);
1074                 break;
1075         case REP(N, N):                 /* as xx{m-1,n-1} */
1076                 copy = dupl(p, start, finish);
1077                 repeat(p, copy, from-1, to-1);
1078                 break;
1079         case REP(N, INF):               /* as xx{n-1,INF} */
1080                 copy = dupl(p, start, finish);
1081                 repeat(p, copy, from-1, to);
1082                 break;
1083         default:                        /* "can't happen" */
1084                 SETERROR(REG_ASSERT);   /* just in case */
1085                 break;
1086         }
1087 }
1088
1089 /*
1090  - seterr - set an error condition
1091  == static int seterr(register struct parse *p, int e);
1092  */
1093 static int                      /* useless but makes type checking happy */
1094 seterr(p, e)
1095 register struct parse *p;
1096 int e;
1097 {
1098         if (p->error == 0)      /* keep earliest error condition */
1099                 p->error = e;
1100         p->next = nuls;         /* try to bring things to a halt */
1101         p->end = nuls;
1102         return(0);              /* make the return value well-defined */
1103 }
1104
1105 /*
1106  - allocset - allocate a set of characters for []
1107  == static cset *allocset(register struct parse *p);
1108  */
1109 static cset *
1110 allocset(p)
1111 register struct parse *p;
1112 {
1113         register int no = p->g->ncsets++;
1114         register size_t nc;
1115         register size_t nbytes;
1116         register cset *cs;
1117         register size_t css = (size_t)p->g->csetsize;
1118         register int i;
1119
1120         if (no >= p->ncsalloc) {        /* need another column of space */
1121                 p->ncsalloc += CHAR_BIT;
1122                 nc = p->ncsalloc;
1123                 assert(nc % CHAR_BIT == 0);
1124                 nbytes = nc / CHAR_BIT * css;
1125                 if (p->g->sets == NULL)
1126                         p->g->sets = (cset *)malloc(nc * sizeof(cset));
1127                 else
1128                         p->g->sets = (cset *)realloc((char *)p->g->sets,
1129                                                         nc * sizeof(cset));
1130                 if (p->g->setbits == NULL)
1131                         p->g->setbits = (uch *)malloc(nbytes);
1132                 else {
1133                         p->g->setbits = (uch *)realloc((char *)p->g->setbits,
1134                                                                 nbytes);
1135                         /* xxx this isn't right if setbits is now NULL */
1136                         for (i = 0; i < no; i++)
1137                                 p->g->sets[i].ptr = p->g->setbits + css*(i/CHAR_BIT);
1138                 }
1139                 if (p->g->sets != NULL && p->g->setbits != NULL)
1140                         (void) memset((char *)p->g->setbits + (nbytes - css),
1141                                                                 0, css);
1142                 else {
1143                         no = 0;
1144                         SETERROR(REG_ESPACE);
1145                         /* caller's responsibility not to do set ops */
1146                 }
1147         }
1148
1149         assert(p->g->sets != NULL);     /* xxx */
1150         cs = &p->g->sets[no];
1151         cs->ptr = p->g->setbits + css*((no)/CHAR_BIT);
1152         cs->mask = 1 << ((no) % CHAR_BIT);
1153         cs->hash = 0;
1154         cs->smultis = 0;
1155         cs->multis = NULL;
1156
1157         return(cs);
1158 }
1159
1160 /*
1161  - freeset - free a now-unused set
1162  == static void freeset(register struct parse *p, register cset *cs);
1163  */
1164 static void
1165 freeset(p, cs)
1166 register struct parse *p;
1167 register cset *cs;
1168 {
1169         register int i;
1170         register cset *top = &p->g->sets[p->g->ncsets];
1171         register size_t css = (size_t)p->g->csetsize;
1172
1173         for (i = 0; i < css; i++)
1174                 CHsub(cs, i);
1175         if (cs == top-1)        /* recover only the easy case */
1176                 p->g->ncsets--;
1177 }
1178
1179 /*
1180  - freezeset - final processing on a set of characters
1181  == static int freezeset(register struct parse *p, register cset *cs);
1182  *
1183  * The main task here is merging identical sets.  This is usually a waste
1184  * of time (although the hash code minimizes the overhead), but can win
1185  * big if REG_ICASE is being used.  REG_ICASE, by the way, is why the hash
1186  * is done using addition rather than xor -- all ASCII [aA] sets xor to
1187  * the same value!
1188  */
1189 static int                      /* set number */
1190 freezeset(p, cs)
1191 register struct parse *p;
1192 register cset *cs;
1193 {
1194         register uch h = cs->hash;
1195         register int i;
1196         register cset *top = &p->g->sets[p->g->ncsets];
1197         register cset *cs2;
1198         register size_t css = (size_t)p->g->csetsize;
1199
1200         /* look for an earlier one which is the same */
1201         for (cs2 = &p->g->sets[0]; cs2 < top; cs2++)
1202                 if (cs2->hash == h && cs2 != cs) {
1203                         /* maybe */
1204                         for (i = 0; i < css; i++)
1205                                 if (!!CHIN(cs2, i) != !!CHIN(cs, i))
1206                                         break;          /* no */
1207                         if (i == css)
1208                                 break;                  /* yes */
1209                 }
1210
1211         if (cs2 < top) {        /* found one */
1212                 freeset(p, cs);
1213                 cs = cs2;
1214         }
1215
1216         return((int)(cs - p->g->sets));
1217 }
1218
1219 /*
1220  - firstch - return first character in a set (which must have at least one)
1221  == static int firstch(register struct parse *p, register cset *cs);
1222  */
1223 static int                      /* character; there is no "none" value */
1224 firstch(p, cs)
1225 register struct parse *p;
1226 register cset *cs;
1227 {
1228         register int i;
1229         register size_t css = (size_t)p->g->csetsize;
1230
1231         for (i = 0; i < css; i++)
1232                 if (CHIN(cs, i))
1233                         return((char)i);
1234         assert(never);
1235         return(0);              /* arbitrary */
1236 }
1237
1238 /*
1239  - nch - number of characters in a set
1240  == static int nch(register struct parse *p, register cset *cs);
1241  */
1242 static int
1243 nch(p, cs)
1244 register struct parse *p;
1245 register cset *cs;
1246 {
1247         register int i;
1248         register size_t css = (size_t)p->g->csetsize;
1249         register int n = 0;
1250
1251         for (i = 0; i < css; i++)
1252                 if (CHIN(cs, i))
1253                         n++;
1254         return(n);
1255 }
1256
1257 /*
1258  - mcadd - add a collating element to a cset
1259  == static void mcadd(register struct parse *p, register cset *cs, \
1260  ==     register char *cp);
1261  */
1262 static void
1263 mcadd(p, cs, cp)
1264 register struct parse *p;
1265 register cset *cs;
1266 register char *cp;
1267 {
1268         register size_t oldend = cs->smultis;
1269
1270         cs->smultis += strlen(cp) + 1;
1271         if (cs->multis == NULL)
1272                 cs->multis = malloc(cs->smultis);
1273         else
1274                 cs->multis = realloc(cs->multis, cs->smultis);
1275         if (cs->multis == NULL) {
1276                 SETERROR(REG_ESPACE);
1277                 return;
1278         }
1279
1280         (void) strcpy(cs->multis + oldend - 1, cp);
1281         cs->multis[cs->smultis - 1] = '\0';
1282 }
1283
1284 /*
1285  - mcsub - subtract a collating element from a cset
1286  == static void mcsub(register cset *cs, register char *cp);
1287  */
1288 static void
1289 mcsub(cs, cp)
1290 register cset *cs;
1291 register char *cp;
1292 {
1293         register char *fp = mcfind(cs, cp);
1294         register size_t len = strlen(fp);
1295
1296         assert(fp != NULL);
1297         (void) memmove(fp, fp + len + 1,
1298                                 cs->smultis - (fp + len + 1 - cs->multis));
1299         cs->smultis -= len;
1300
1301         if (cs->smultis == 0) {
1302                 free(cs->multis);
1303                 cs->multis = NULL;
1304                 return;
1305         }
1306
1307         cs->multis = realloc(cs->multis, cs->smultis);
1308         assert(cs->multis != NULL);
1309 }
1310
1311 /*
1312  - mcin - is a collating element in a cset?
1313  == static int mcin(register cset *cs, register char *cp);
1314  */
1315 static int
1316 mcin(cs, cp)
1317 register cset *cs;
1318 register char *cp;
1319 {
1320         return(mcfind(cs, cp) != NULL);
1321 }
1322
1323 /*
1324  - mcfind - find a collating element in a cset
1325  == static char *mcfind(register cset *cs, register char *cp);
1326  */
1327 static char *
1328 mcfind(cs, cp)
1329 register cset *cs;
1330 register char *cp;
1331 {
1332         register char *p;
1333
1334         if (cs->multis == NULL)
1335                 return(NULL);
1336         for (p = cs->multis; *p != '\0'; p += strlen(p) + 1)
1337                 if (strcmp(cp, p) == 0)
1338                         return(p);
1339         return(NULL);
1340 }
1341
1342 /*
1343  - mcinvert - invert the list of collating elements in a cset
1344  == static void mcinvert(register struct parse *p, register cset *cs);
1345  *
1346  * This would have to know the set of possibilities.  Implementation
1347  * is deferred.
1348  */
1349 static void
1350 mcinvert(p, cs)
1351 register struct parse *p;
1352 register cset *cs;
1353 {
1354         assert(cs->multis == NULL);     /* xxx */
1355 }
1356
1357 /*
1358  - mccase - add case counterparts of the list of collating elements in a cset
1359  == static void mccase(register struct parse *p, register cset *cs);
1360  *
1361  * This would have to know the set of possibilities.  Implementation
1362  * is deferred.
1363  */
1364 static void
1365 mccase(p, cs)
1366 register struct parse *p;
1367 register cset *cs;
1368 {
1369         assert(cs->multis == NULL);     /* xxx */
1370 }
1371
1372 /*
1373  - isinsets - is this character in any sets?
1374  == static int isinsets(register struct re_guts *g, int c);
1375  */
1376 static int                      /* predicate */
1377 isinsets(g, c)
1378 register struct re_guts *g;
1379 int c;
1380 {
1381         register uch *col;
1382         register int i;
1383         register int ncols = (g->ncsets+(CHAR_BIT-1)) / CHAR_BIT;
1384         register unsigned uc = (unsigned char)c;
1385
1386         for (i = 0, col = g->setbits; i < ncols; i++, col += g->csetsize)
1387                 if (col[uc] != 0)
1388                         return(1);
1389         return(0);
1390 }
1391
1392 /*
1393  - samesets - are these two characters in exactly the same sets?
1394  == static int samesets(register struct re_guts *g, int c1, int c2);
1395  */
1396 static int                      /* predicate */
1397 samesets(g, c1, c2)
1398 register struct re_guts *g;
1399 int c1;
1400 int c2;
1401 {
1402         register uch *col;
1403         register int i;
1404         register int ncols = (g->ncsets+(CHAR_BIT-1)) / CHAR_BIT;
1405         register unsigned uc1 = (unsigned char)c1;
1406         register unsigned uc2 = (unsigned char)c2;
1407
1408         for (i = 0, col = g->setbits; i < ncols; i++, col += g->csetsize)
1409                 if (col[uc1] != col[uc2])
1410                         return(0);
1411         return(1);
1412 }
1413
1414 /*
1415  - categorize - sort out character categories
1416  == static void categorize(struct parse *p, register struct re_guts *g);
1417  */
1418 static void
1419 categorize(p, g)
1420 struct parse *p;
1421 register struct re_guts *g;
1422 {
1423         register cat_t *cats = g->categories;
1424         register int c;
1425         register int c2;
1426         register cat_t cat;
1427
1428         /* avoid making error situations worse */
1429         if (p->error != 0)
1430                 return;
1431
1432         for (c = CHAR_MIN; c <= CHAR_MAX; c++)
1433                 if (cats[c] == 0 && isinsets(g, c)) {
1434                         cat = g->ncategories++;
1435                         cats[c] = cat;
1436                         for (c2 = c+1; c2 <= CHAR_MAX; c2++)
1437                                 if (cats[c2] == 0 && samesets(g, c, c2))
1438                                         cats[c2] = cat;
1439                 }
1440 }
1441
1442 /*
1443  - dupl - emit a duplicate of a bunch of sops
1444  == static sopno dupl(register struct parse *p, sopno start, sopno finish);
1445  */
1446 static sopno                    /* start of duplicate */
1447 dupl(p, start, finish)
1448 register struct parse *p;
1449 sopno start;                    /* from here */
1450 sopno finish;                   /* to this less one */
1451 {
1452         register sopno ret = HERE();
1453         register sopno len = finish - start;
1454
1455         assert(finish >= start);
1456         if (len == 0)
1457                 return(ret);
1458         enlarge(p, p->ssize + len);     /* this many unexpected additions */
1459         assert(p->ssize >= p->slen + len);
1460         (void) memcpy((char *)(p->strip + p->slen),
1461                 (char *)(p->strip + start), (size_t)len*sizeof(sop));
1462         p->slen += len;
1463         return(ret);
1464 }
1465
1466 /*
1467  - doemit - emit a strip operator
1468  == static void doemit(register struct parse *p, sop op, size_t opnd);
1469  *
1470  * It might seem better to implement this as a macro with a function as
1471  * hard-case backup, but it's just too big and messy unless there are
1472  * some changes to the data structures.  Maybe later.
1473  */
1474 static void
1475 doemit(p, op, opnd)
1476 register struct parse *p;
1477 sop op;
1478 size_t opnd;
1479 {
1480         /* avoid making error situations worse */
1481         if (p->error != 0)
1482                 return;
1483
1484         /* deal with oversize operands ("can't happen", more or less) */
1485         assert(opnd < 1<<OPSHIFT);
1486
1487         /* deal with undersized strip */
1488         if (p->slen >= p->ssize)
1489                 enlarge(p, (p->ssize+1) / 2 * 3);       /* +50% */
1490         assert(p->slen < p->ssize);
1491
1492         /* finally, it's all reduced to the easy case */
1493         p->strip[p->slen++] = SOP(op, opnd);
1494 }
1495
1496 /*
1497  - doinsert - insert a sop into the strip
1498  == static void doinsert(register struct parse *p, sop op, size_t opnd, sopno pos);
1499  */
1500 static void
1501 doinsert(p, op, opnd, pos)
1502 register struct parse *p;
1503 sop op;
1504 size_t opnd;
1505 sopno pos;
1506 {
1507         register sopno sn;
1508         register sop s;
1509         register int i;
1510
1511         /* avoid making error situations worse */
1512         if (p->error != 0)
1513                 return;
1514
1515         sn = HERE();
1516         EMIT(op, opnd);         /* do checks, ensure space */
1517         assert(HERE() == sn+1);
1518         s = p->strip[sn];
1519
1520         /* adjust paren pointers */
1521         assert(pos > 0);
1522         for (i = 1; i < NPAREN; i++) {
1523                 if (p->pbegin[i] >= pos) {
1524                         p->pbegin[i]++;
1525                 }
1526                 if (p->pend[i] >= pos) {
1527                         p->pend[i]++;
1528                 }
1529         }
1530
1531         memmove((char *)&p->strip[pos+1], (char *)&p->strip[pos],
1532                                                 (HERE()-pos-1)*sizeof(sop));
1533         p->strip[pos] = s;
1534 }
1535
1536 /*
1537  - dofwd - complete a forward reference
1538  == static void dofwd(register struct parse *p, sopno pos, sop value);
1539  */
1540 static void
1541 dofwd(p, pos, value)
1542 register struct parse *p;
1543 register sopno pos;
1544 sop value;
1545 {
1546         /* avoid making error situations worse */
1547         if (p->error != 0)
1548                 return;
1549
1550         assert(value < 1<<OPSHIFT);
1551         p->strip[pos] = OP(p->strip[pos]) | value;
1552 }
1553
1554 /*
1555  - enlarge - enlarge the strip
1556  == static void enlarge(register struct parse *p, sopno size);
1557  */
1558 static void
1559 enlarge(p, size)
1560 register struct parse *p;
1561 register sopno size;
1562 {
1563         register sop *sp;
1564
1565         if (p->ssize >= size)
1566                 return;
1567
1568         sp = (sop *)realloc(p->strip, size*sizeof(sop));
1569         if (sp == NULL) {
1570                 SETERROR(REG_ESPACE);
1571                 return;
1572         }
1573         p->strip = sp;
1574         p->ssize = size;
1575 }
1576
1577 /*
1578  - stripsnug - compact the strip
1579  == static void stripsnug(register struct parse *p, register struct re_guts *g);
1580  */
1581 static void
1582 stripsnug(p, g)
1583 register struct parse *p;
1584 register struct re_guts *g;
1585 {
1586         g->nstates = p->slen;
1587         g->strip = (sop *)realloc((char *)p->strip, p->slen * sizeof(sop));
1588         if (g->strip == NULL) {
1589                 SETERROR(REG_ESPACE);
1590                 g->strip = p->strip;
1591         }
1592 }
1593
1594 /*
1595  - findmust - fill in must and mlen with longest mandatory literal string
1596  == static void findmust(register struct parse *p, register struct re_guts *g);
1597  *
1598  * This algorithm could do fancy things like analyzing the operands of |
1599  * for common subsequences.  Someday.  This code is simple and finds most
1600  * of the interesting cases.
1601  *
1602  * Note that must and mlen got initialized during setup.
1603  */
1604 static void
1605 findmust(p, g)
1606 struct parse *p;
1607 register struct re_guts *g;
1608 {
1609         register sop *scan;
1610         sop *start;
1611         register sop *newstart;
1612         register sopno newlen;
1613         register sop s;
1614         register char *cp;
1615         register sopno i;
1616
1617         /* avoid making error situations worse */
1618         if (p->error != 0)
1619                 return;
1620
1621         /* find the longest OCHAR sequence in strip */
1622         newlen = 0;
1623         scan = g->strip + 1;
1624         do {
1625                 s = *scan++;
1626                 switch (OP(s)) {
1627                 case OCHAR:             /* sequence member */
1628                         if (newlen == 0)                /* new sequence */
1629                                 newstart = scan - 1;
1630                         newlen++;
1631                         break;
1632                 case OPLUS_:            /* things that don't break one */
1633                 case OLPAREN:
1634                 case ORPAREN:
1635                         break;
1636                 case OQUEST_:           /* things that must be skipped */
1637                 case OCH_:
1638                         scan--;
1639                         do {
1640                                 scan += OPND(s);
1641                                 s = *scan;
1642                                 /* assert() interferes w debug printouts */
1643                                 if (OP(s) != O_QUEST && OP(s) != O_CH &&
1644                                                         OP(s) != OOR2) {
1645                                         g->iflags |= BAD;
1646                                         return;
1647                                 }
1648                         } while (OP(s) != O_QUEST && OP(s) != O_CH);
1649                         /* fallthrough */
1650                 default:                /* things that break a sequence */
1651                         if (newlen > g->mlen) {         /* ends one */
1652                                 start = newstart;
1653                                 g->mlen = newlen;
1654                         }
1655                         newlen = 0;
1656                         break;
1657                 }
1658         } while (OP(s) != OEND);
1659
1660         if (g->mlen == 0)               /* there isn't one */
1661                 return;
1662
1663         /* turn it into a character string */
1664         g->must = malloc((size_t)g->mlen + 1);
1665         if (g->must == NULL) {          /* argh; just forget it */
1666                 g->mlen = 0;
1667                 return;
1668         }
1669         cp = g->must;
1670         scan = start;
1671         for (i = g->mlen; i > 0; i--) {
1672                 while (OP(s = *scan++) != OCHAR)
1673                         continue;
1674                 assert(cp < g->must + g->mlen);
1675                 *cp++ = (char)OPND(s);
1676         }
1677         assert(cp == g->must + g->mlen);
1678         *cp++ = '\0';           /* just on general principles */
1679 }
1680
1681 /*
1682  - pluscount - count + nesting
1683  == static sopno pluscount(register struct parse *p, register struct re_guts *g);
1684  */
1685 static sopno                    /* nesting depth */
1686 pluscount(p, g)
1687 struct parse *p;
1688 register struct re_guts *g;
1689 {
1690         register sop *scan;
1691         register sop s;
1692         register sopno plusnest = 0;
1693         register sopno maxnest = 0;
1694
1695         if (p->error != 0)
1696                 return(0);      /* there may not be an OEND */
1697
1698         scan = g->strip + 1;
1699         do {
1700                 s = *scan++;
1701                 switch (OP(s)) {
1702                 case OPLUS_:
1703                         plusnest++;
1704                         break;
1705                 case O_PLUS:
1706                         if (plusnest > maxnest)
1707                                 maxnest = plusnest;
1708                         plusnest--;
1709                         break;
1710                 }
1711         } while (OP(s) != OEND);
1712         if (plusnest != 0)
1713                 g->iflags |= BAD;
1714         return(maxnest);
1715 }