squid-cache · eduard-bagdasaryan · Feb 19, 2025 · Feb 24, 2025 · Feb 24, 2025 · Feb 24, 2025
diff --git a/src/Notes.cc b/src/Notes.cc
@@ -339,10 +339,9 @@ static void
 AppendTokens(NotePairs::Entries &entries, const SBuf &key, const SBuf &val, const CharacterSet &delimiters)
 {
     Parser::Tokenizer tok(val);
-    const auto tokenCharacters = delimiters.complement("non-delimiters");
     do {
         SBuf token;
-        (void)tok.prefix(token, tokenCharacters);
+        (void)tok.prefixUntil(token, delimiters);
         entries.push_back(new NotePairs::Entry(key, token)); // token may be empty
     } while (tok.skipOne(delimiters));
 }

diff --git a/src/parser/Tokenizer.cc b/src/parser/Tokenizer.cc
@@ -76,18 +76,20 @@ Parser::Tokenizer::token(SBuf &returnedToken, const CharacterSet &delimiters)
 }
 
 bool
-Parser::Tokenizer::prefix(SBuf &returnedToken, const CharacterSet &tokenChars, const SBuf::size_type limit)
+Parser::Tokenizer::prefix_(SBuf &returnedToken, const SBuf::size_type limit, const SearchAlgorithm searchAlgorithm, const CharacterSet &chars)
 {
-    SBuf::size_type prefixLen = buf_.substr(0,limit).findFirstNotOf(tokenChars);
+    const auto limitedBuf = buf_.substr(0, limit);
+    auto prefixLen = (searchAlgorithm == findFirstOf) ? limitedBuf.findFirstOf(chars) : limitedBuf.findFirstNotOf(chars);
     if (prefixLen == 0) {
-        debugs(24, 8, "no prefix for set " << tokenChars.name);
+        debugs(24, 8, "empty needle with set " << chars.name);
         return false;
     }
-    if (prefixLen == SBuf::npos && (atEnd() || limit == 0)) {
-        debugs(24, 8, "no char in set " << tokenChars.name << " while looking for prefix");
+    if (prefixLen == SBuf::npos && !limitedBuf.length()) {
+        // TODO: Evaluate whether checking limitedBuf.length() before computing prefixLen is an optimization.
+        debugs(24, 8, "empty haystack with limit " << limit);
         return false;
     }
-    if (prefixLen == SBuf::npos && limit > 0) {
+    if (prefixLen == SBuf::npos) {
         debugs(24, 8, "whole haystack matched");
         prefixLen = limit;
     }
@@ -96,6 +98,12 @@ Parser::Tokenizer::prefix(SBuf &returnedToken, const CharacterSet &tokenChars, c
     return true;
 }
 
+bool
+Parser::Tokenizer::prefix(SBuf &returnedToken, const CharacterSet &tokenChars, const SBuf::size_type limit)
+{
+    return prefix_(returnedToken, limit, findFirstNotOf, tokenChars);
+}
+
 SBuf
 Parser::Tokenizer::prefix(const char *description, const CharacterSet &tokenChars, const SBuf::size_type limit)
 {
@@ -104,7 +112,7 @@ Parser::Tokenizer::prefix(const char *description, const CharacterSet &tokenChar
 
     SBuf result;
 
-    if (!prefix(result, tokenChars, limit))
+    if (!prefix_(result, limit, findFirstNotOf, tokenChars))
         throw TexcHere(ToSBuf("cannot parse ", description));
 
     if (atEnd())
@@ -113,6 +121,12 @@ Parser::Tokenizer::prefix(const char *description, const CharacterSet &tokenChar
     return result;
 }
 
+bool
+Parser::Tokenizer::prefixUntil(SBuf &returnedToken, const CharacterSet &delimiters, SBuf::size_type limit)
+{
+    return prefix_(returnedToken, limit, findFirstOf, delimiters);
+}
+
 bool
 Parser::Tokenizer::suffix(SBuf &returnedToken, const CharacterSet &tokenChars, const SBuf::size_type limit)
 {

diff --git a/src/parser/Tokenizer.h b/src/parser/Tokenizer.h
@@ -70,6 +70,15 @@ class Tokenizer
      */
     bool prefix(SBuf &returnedToken, const CharacterSet &tokenChars, SBuf::size_type limit = SBuf::npos);
 
+    /// Extracts all sequential non-delimiter characters up to an optional
+    /// length limit. Any subsequent characters are left intact. If no delimiter
+    /// characters were found, and the length limit has not been reached, then
+    /// the prefix may continue when/if more input data becomes available later!
+    ///
+    /// \retval true if one or more permitted characters were found
+    /// \param returnedToken is used to store permitted characters found
+    bool prefixUntil(SBuf &returnedToken, const CharacterSet &delimiters, SBuf::size_type limit = SBuf::npos);
+
     /** Extracts all sequential permitted characters up to an optional length limit.
      * Operates on the trailing end of the buffer.
      *
@@ -164,6 +173,14 @@ class Tokenizer
     int64_t udec64(const char *description, SBuf::size_type limit = SBuf::npos);
 
 protected:
+    /// SBuf searches supported by prefix_()
+    using SearchAlgorithm = enum { findFirstOf, findFirstNotOf };
+
+    /// Code shared by prefix() and prefixUntil() methods.
+    /// \param searchAlgorithm specifies how to scan buf_ prefix using the given CharacterSet
+    /// \param chars searchAlgorithm parameter -- permitted token or delimiter characters
+    bool prefix_(SBuf &returnedToken, SBuf::size_type limit, SearchAlgorithm searchAlgorithm, const CharacterSet &chars);
+
     SBuf consume(const SBuf::size_type n);
     SBuf::size_type success(const SBuf::size_type n);
     SBuf consumeTrailing(const SBuf::size_type n);