xref: /aoo4110/main/ucb/source/regexp/regexp.cxx (revision b1cdbd2c)
1*b1cdbd2cSJim Jagielski /**************************************************************
2*b1cdbd2cSJim Jagielski  *
3*b1cdbd2cSJim Jagielski  * Licensed to the Apache Software Foundation (ASF) under one
4*b1cdbd2cSJim Jagielski  * or more contributor license agreements.  See the NOTICE file
5*b1cdbd2cSJim Jagielski  * distributed with this work for additional information
6*b1cdbd2cSJim Jagielski  * regarding copyright ownership.  The ASF licenses this file
7*b1cdbd2cSJim Jagielski  * to you under the Apache License, Version 2.0 (the
8*b1cdbd2cSJim Jagielski  * "License"); you may not use this file except in compliance
9*b1cdbd2cSJim Jagielski  * with the License.  You may obtain a copy of the License at
10*b1cdbd2cSJim Jagielski  *
11*b1cdbd2cSJim Jagielski  *   http://www.apache.org/licenses/LICENSE-2.0
12*b1cdbd2cSJim Jagielski  *
13*b1cdbd2cSJim Jagielski  * Unless required by applicable law or agreed to in writing,
14*b1cdbd2cSJim Jagielski  * software distributed under the License is distributed on an
15*b1cdbd2cSJim Jagielski  * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
16*b1cdbd2cSJim Jagielski  * KIND, either express or implied.  See the License for the
17*b1cdbd2cSJim Jagielski  * specific language governing permissions and limitations
18*b1cdbd2cSJim Jagielski  * under the License.
19*b1cdbd2cSJim Jagielski  *
20*b1cdbd2cSJim Jagielski  *************************************************************/
21*b1cdbd2cSJim Jagielski 
22*b1cdbd2cSJim Jagielski 
23*b1cdbd2cSJim Jagielski 
24*b1cdbd2cSJim Jagielski // MARKER(update_precomp.py): autogen include statement, do not remove
25*b1cdbd2cSJim Jagielski #include "precompiled_ucb.hxx"
26*b1cdbd2cSJim Jagielski #include <regexp.hxx>
27*b1cdbd2cSJim Jagielski 
28*b1cdbd2cSJim Jagielski #include <cstddef>
29*b1cdbd2cSJim Jagielski 
30*b1cdbd2cSJim Jagielski #include "osl/diagnose.h"
31*b1cdbd2cSJim Jagielski #include <com/sun/star/lang/IllegalArgumentException.hpp>
32*b1cdbd2cSJim Jagielski #include <rtl/ustrbuf.hxx>
33*b1cdbd2cSJim Jagielski #include <rtl/ustring.hxx>
34*b1cdbd2cSJim Jagielski 
35*b1cdbd2cSJim Jagielski namespace unnamed_ucb_regexp {} using namespace unnamed_ucb_regexp;
36*b1cdbd2cSJim Jagielski 	// unnamed namespaces don't work well yet...
37*b1cdbd2cSJim Jagielski 
38*b1cdbd2cSJim Jagielski using namespace com::sun::star;
39*b1cdbd2cSJim Jagielski using namespace ucb_impl;
40*b1cdbd2cSJim Jagielski 
41*b1cdbd2cSJim Jagielski //============================================================================
42*b1cdbd2cSJim Jagielski //
43*b1cdbd2cSJim Jagielski //  Regexp
44*b1cdbd2cSJim Jagielski //
45*b1cdbd2cSJim Jagielski //============================================================================
46*b1cdbd2cSJim Jagielski 
Regexp(Kind eTheKind,rtl::OUString const & rThePrefix,bool bTheEmptyDomain,rtl::OUString const & rTheInfix,bool bTheTranslation,rtl::OUString const & rTheReversePrefix)47*b1cdbd2cSJim Jagielski inline Regexp::Regexp(Kind eTheKind, rtl::OUString const & rThePrefix,
48*b1cdbd2cSJim Jagielski 					  bool bTheEmptyDomain, rtl::OUString const & rTheInfix,
49*b1cdbd2cSJim Jagielski 					  bool bTheTranslation,
50*b1cdbd2cSJim Jagielski 					  rtl::OUString const & rTheReversePrefix):
51*b1cdbd2cSJim Jagielski 	m_eKind(eTheKind),
52*b1cdbd2cSJim Jagielski 	m_aPrefix(rThePrefix),
53*b1cdbd2cSJim Jagielski 	m_aInfix(rTheInfix),
54*b1cdbd2cSJim Jagielski 	m_aReversePrefix(rTheReversePrefix),
55*b1cdbd2cSJim Jagielski 	m_bEmptyDomain(bTheEmptyDomain),
56*b1cdbd2cSJim Jagielski 	m_bTranslation(bTheTranslation)
57*b1cdbd2cSJim Jagielski {
58*b1cdbd2cSJim Jagielski 	OSL_ASSERT(m_eKind == KIND_DOMAIN
59*b1cdbd2cSJim Jagielski 			   || !m_bEmptyDomain && m_aInfix.getLength() == 0);
60*b1cdbd2cSJim Jagielski 	OSL_ASSERT(m_bTranslation || m_aReversePrefix.getLength() == 0);
61*b1cdbd2cSJim Jagielski }
62*b1cdbd2cSJim Jagielski 
63*b1cdbd2cSJim Jagielski //============================================================================
64*b1cdbd2cSJim Jagielski namespace unnamed_ucb_regexp {
65*b1cdbd2cSJim Jagielski 
matchStringIgnoreCase(sal_Unicode const ** pBegin,sal_Unicode const * pEnd,rtl::OUString const & rString)66*b1cdbd2cSJim Jagielski bool matchStringIgnoreCase(sal_Unicode const ** pBegin,
67*b1cdbd2cSJim Jagielski 						   sal_Unicode const * pEnd,
68*b1cdbd2cSJim Jagielski 						   rtl::OUString const & rString)
69*b1cdbd2cSJim Jagielski {
70*b1cdbd2cSJim Jagielski 	sal_Unicode const * p = *pBegin;
71*b1cdbd2cSJim Jagielski 
72*b1cdbd2cSJim Jagielski 	sal_Unicode const * q = rString.getStr();
73*b1cdbd2cSJim Jagielski 	sal_Unicode const * qEnd = q + rString.getLength();
74*b1cdbd2cSJim Jagielski 
75*b1cdbd2cSJim Jagielski 	if (pEnd - p < qEnd - q)
76*b1cdbd2cSJim Jagielski 		return false;
77*b1cdbd2cSJim Jagielski 
78*b1cdbd2cSJim Jagielski 	while (q != qEnd)
79*b1cdbd2cSJim Jagielski 	{
80*b1cdbd2cSJim Jagielski 		sal_Unicode c1 = *p++;
81*b1cdbd2cSJim Jagielski 		sal_Unicode c2 = *q++;
82*b1cdbd2cSJim Jagielski 		if (c1 >= 'a' && c1 <= 'z')
83*b1cdbd2cSJim Jagielski 			c1 -= 'a' - 'A';
84*b1cdbd2cSJim Jagielski 		if (c2 >= 'a' && c2 <= 'z')
85*b1cdbd2cSJim Jagielski 			c2 -= 'a' - 'A';
86*b1cdbd2cSJim Jagielski 		if (c1 != c2)
87*b1cdbd2cSJim Jagielski 			return false;
88*b1cdbd2cSJim Jagielski 	}
89*b1cdbd2cSJim Jagielski 
90*b1cdbd2cSJim Jagielski 	*pBegin = p;
91*b1cdbd2cSJim Jagielski 	return true;
92*b1cdbd2cSJim Jagielski }
93*b1cdbd2cSJim Jagielski 
94*b1cdbd2cSJim Jagielski }
95*b1cdbd2cSJim Jagielski 
matches(rtl::OUString const & rString,rtl::OUString * pTranslation,bool * pTranslated) const96*b1cdbd2cSJim Jagielski bool Regexp::matches(rtl::OUString const & rString,
97*b1cdbd2cSJim Jagielski 					 rtl::OUString * pTranslation, bool * pTranslated) const
98*b1cdbd2cSJim Jagielski {
99*b1cdbd2cSJim Jagielski 	sal_Unicode const * pBegin = rString.getStr();
100*b1cdbd2cSJim Jagielski 	sal_Unicode const * pEnd = pBegin + rString.getLength();
101*b1cdbd2cSJim Jagielski 
102*b1cdbd2cSJim Jagielski 	bool bMatches = false;
103*b1cdbd2cSJim Jagielski 
104*b1cdbd2cSJim Jagielski 	sal_Unicode const * p = pBegin;
105*b1cdbd2cSJim Jagielski 	if (matchStringIgnoreCase(&p, pEnd, m_aPrefix))
106*b1cdbd2cSJim Jagielski 	{
107*b1cdbd2cSJim Jagielski 		sal_Unicode const * pBlock1Begin = p;
108*b1cdbd2cSJim Jagielski 		sal_Unicode const * pBlock1End = pEnd;
109*b1cdbd2cSJim Jagielski 
110*b1cdbd2cSJim Jagielski 		sal_Unicode const * pBlock2Begin = 0;
111*b1cdbd2cSJim Jagielski 		sal_Unicode const * pBlock2End = 0;
112*b1cdbd2cSJim Jagielski 
113*b1cdbd2cSJim Jagielski 		switch (m_eKind)
114*b1cdbd2cSJim Jagielski 		{
115*b1cdbd2cSJim Jagielski 			case KIND_PREFIX:
116*b1cdbd2cSJim Jagielski 				bMatches = true;
117*b1cdbd2cSJim Jagielski 				break;
118*b1cdbd2cSJim Jagielski 
119*b1cdbd2cSJim Jagielski 			case KIND_AUTHORITY:
120*b1cdbd2cSJim Jagielski 				bMatches = p == pEnd || *p == '/' || *p == '?' || *p == '#';
121*b1cdbd2cSJim Jagielski 				break;
122*b1cdbd2cSJim Jagielski 
123*b1cdbd2cSJim Jagielski 			case KIND_DOMAIN:
124*b1cdbd2cSJim Jagielski 				if (!m_bEmptyDomain)
125*b1cdbd2cSJim Jagielski 				{
126*b1cdbd2cSJim Jagielski 					if (p == pEnd || *p == '/' || *p == '?' || *p == '#')
127*b1cdbd2cSJim Jagielski 						break;
128*b1cdbd2cSJim Jagielski 					++p;
129*b1cdbd2cSJim Jagielski 				}
130*b1cdbd2cSJim Jagielski 				for (;;)
131*b1cdbd2cSJim Jagielski 				{
132*b1cdbd2cSJim Jagielski 					sal_Unicode const * q = p;
133*b1cdbd2cSJim Jagielski 					if (matchStringIgnoreCase(&q, pEnd, m_aInfix)
134*b1cdbd2cSJim Jagielski 						&& (q == pEnd || *q == '/' || *q == '?' || *q == '#'))
135*b1cdbd2cSJim Jagielski 					{
136*b1cdbd2cSJim Jagielski 						bMatches = true;
137*b1cdbd2cSJim Jagielski 						pBlock1End = p;
138*b1cdbd2cSJim Jagielski 						pBlock2Begin = q;
139*b1cdbd2cSJim Jagielski 						pBlock2End = pEnd;
140*b1cdbd2cSJim Jagielski 						break;
141*b1cdbd2cSJim Jagielski 					}
142*b1cdbd2cSJim Jagielski 
143*b1cdbd2cSJim Jagielski 					if (p == pEnd)
144*b1cdbd2cSJim Jagielski 						break;
145*b1cdbd2cSJim Jagielski 
146*b1cdbd2cSJim Jagielski 					sal_Unicode c = *p++;
147*b1cdbd2cSJim Jagielski 					if (c == '/' || c == '?' || c == '#')
148*b1cdbd2cSJim Jagielski 						break;
149*b1cdbd2cSJim Jagielski 				}
150*b1cdbd2cSJim Jagielski 				break;
151*b1cdbd2cSJim Jagielski 		}
152*b1cdbd2cSJim Jagielski 
153*b1cdbd2cSJim Jagielski 		if (bMatches)
154*b1cdbd2cSJim Jagielski 		{
155*b1cdbd2cSJim Jagielski 			if (m_bTranslation)
156*b1cdbd2cSJim Jagielski 			{
157*b1cdbd2cSJim Jagielski 				if (pTranslation)
158*b1cdbd2cSJim Jagielski 				{
159*b1cdbd2cSJim Jagielski 					rtl::OUStringBuffer aBuffer(m_aReversePrefix);
160*b1cdbd2cSJim Jagielski 					aBuffer.append(pBlock1Begin, pBlock1End - pBlock1Begin);
161*b1cdbd2cSJim Jagielski 					aBuffer.append(m_aInfix);
162*b1cdbd2cSJim Jagielski 					aBuffer.append(pBlock2Begin, pBlock2End - pBlock2Begin);
163*b1cdbd2cSJim Jagielski 					*pTranslation = aBuffer.makeStringAndClear();
164*b1cdbd2cSJim Jagielski 				}
165*b1cdbd2cSJim Jagielski 				if (pTranslated)
166*b1cdbd2cSJim Jagielski 					*pTranslated = true;
167*b1cdbd2cSJim Jagielski 			}
168*b1cdbd2cSJim Jagielski 			else
169*b1cdbd2cSJim Jagielski 			{
170*b1cdbd2cSJim Jagielski 				if (pTranslation)
171*b1cdbd2cSJim Jagielski 					*pTranslation = rString;
172*b1cdbd2cSJim Jagielski 				if (pTranslated)
173*b1cdbd2cSJim Jagielski 					*pTranslated = false;
174*b1cdbd2cSJim Jagielski 			}
175*b1cdbd2cSJim Jagielski 		}
176*b1cdbd2cSJim Jagielski 	}
177*b1cdbd2cSJim Jagielski 
178*b1cdbd2cSJim Jagielski 	return bMatches;
179*b1cdbd2cSJim Jagielski }
180*b1cdbd2cSJim Jagielski 
181*b1cdbd2cSJim Jagielski //============================================================================
182*b1cdbd2cSJim Jagielski namespace unnamed_ucb_regexp {
183*b1cdbd2cSJim Jagielski 
isAlpha(sal_Unicode c)184*b1cdbd2cSJim Jagielski inline bool isAlpha(sal_Unicode c)
185*b1cdbd2cSJim Jagielski {
186*b1cdbd2cSJim Jagielski 	return (c >= 'A' && c <= 'Z') || (c >= 'a' && c <= 'z');
187*b1cdbd2cSJim Jagielski }
188*b1cdbd2cSJim Jagielski 
isDigit(sal_Unicode c)189*b1cdbd2cSJim Jagielski inline bool isDigit(sal_Unicode c)
190*b1cdbd2cSJim Jagielski {
191*b1cdbd2cSJim Jagielski 	return c >= '0' && c <= '9';
192*b1cdbd2cSJim Jagielski }
193*b1cdbd2cSJim Jagielski 
isScheme(rtl::OUString const & rString,bool bColon)194*b1cdbd2cSJim Jagielski bool isScheme(rtl::OUString const & rString, bool bColon)
195*b1cdbd2cSJim Jagielski {
196*b1cdbd2cSJim Jagielski 	// Return true if rString matches <scheme> (plus a trailing ":" if bColon
197*b1cdbd2cSJim Jagielski     // is true) from RFC 2396:
198*b1cdbd2cSJim Jagielski 	sal_Unicode const * p = rString.getStr();
199*b1cdbd2cSJim Jagielski 	sal_Unicode const * pEnd = p + rString.getLength();
200*b1cdbd2cSJim Jagielski 	if (p != pEnd && isAlpha(*p))
201*b1cdbd2cSJim Jagielski 		for (++p;;)
202*b1cdbd2cSJim Jagielski 		{
203*b1cdbd2cSJim Jagielski 			if (p == pEnd)
204*b1cdbd2cSJim Jagielski 				return !bColon;
205*b1cdbd2cSJim Jagielski 			sal_Unicode c = *p++;
206*b1cdbd2cSJim Jagielski 			if (!(isAlpha(c) || isDigit(c)
207*b1cdbd2cSJim Jagielski                   || c == '+' || c == '-' || c == '.'))
208*b1cdbd2cSJim Jagielski                 return bColon && c == ':' && p == pEnd;
209*b1cdbd2cSJim Jagielski 		}
210*b1cdbd2cSJim Jagielski 	return false;
211*b1cdbd2cSJim Jagielski }
212*b1cdbd2cSJim Jagielski 
appendStringLiteral(rtl::OUStringBuffer * pBuffer,rtl::OUString const & rString)213*b1cdbd2cSJim Jagielski void appendStringLiteral(rtl::OUStringBuffer * pBuffer,
214*b1cdbd2cSJim Jagielski 						 rtl::OUString const & rString)
215*b1cdbd2cSJim Jagielski {
216*b1cdbd2cSJim Jagielski 	OSL_ASSERT(pBuffer);
217*b1cdbd2cSJim Jagielski 
218*b1cdbd2cSJim Jagielski 	pBuffer->append(sal_Unicode('"'));
219*b1cdbd2cSJim Jagielski 	sal_Unicode const * p = rString.getStr();
220*b1cdbd2cSJim Jagielski 	sal_Unicode const * pEnd = p + rString.getLength();
221*b1cdbd2cSJim Jagielski 	while (p != pEnd)
222*b1cdbd2cSJim Jagielski 	{
223*b1cdbd2cSJim Jagielski 		sal_Unicode c = *p++;
224*b1cdbd2cSJim Jagielski 		if (c == '"' || c == '\\')
225*b1cdbd2cSJim Jagielski 			pBuffer->append(sal_Unicode('\\'));
226*b1cdbd2cSJim Jagielski 		pBuffer->append(c);
227*b1cdbd2cSJim Jagielski 	}
228*b1cdbd2cSJim Jagielski 	pBuffer->append(sal_Unicode('"'));
229*b1cdbd2cSJim Jagielski }
230*b1cdbd2cSJim Jagielski 
231*b1cdbd2cSJim Jagielski }
232*b1cdbd2cSJim Jagielski 
getRegexp(bool bReverse) const233*b1cdbd2cSJim Jagielski rtl::OUString Regexp::getRegexp(bool bReverse) const
234*b1cdbd2cSJim Jagielski {
235*b1cdbd2cSJim Jagielski 	if (m_bTranslation)
236*b1cdbd2cSJim Jagielski 	{
237*b1cdbd2cSJim Jagielski 		rtl::OUStringBuffer aBuffer;
238*b1cdbd2cSJim Jagielski 		if (bReverse)
239*b1cdbd2cSJim Jagielski 		{
240*b1cdbd2cSJim Jagielski 			if (m_aReversePrefix.getLength() != 0)
241*b1cdbd2cSJim Jagielski 				appendStringLiteral(&aBuffer, m_aReversePrefix);
242*b1cdbd2cSJim Jagielski 		}
243*b1cdbd2cSJim Jagielski 		else
244*b1cdbd2cSJim Jagielski 		{
245*b1cdbd2cSJim Jagielski 			if (m_aPrefix.getLength() != 0)
246*b1cdbd2cSJim Jagielski 				appendStringLiteral(&aBuffer, m_aPrefix);
247*b1cdbd2cSJim Jagielski 		}
248*b1cdbd2cSJim Jagielski 		switch (m_eKind)
249*b1cdbd2cSJim Jagielski 		{
250*b1cdbd2cSJim Jagielski 			case KIND_PREFIX:
251*b1cdbd2cSJim Jagielski 				aBuffer.appendAscii(RTL_CONSTASCII_STRINGPARAM("(.*)"));
252*b1cdbd2cSJim Jagielski 				break;
253*b1cdbd2cSJim Jagielski 
254*b1cdbd2cSJim Jagielski 			case KIND_AUTHORITY:
255*b1cdbd2cSJim Jagielski 				aBuffer.
256*b1cdbd2cSJim Jagielski 					appendAscii(RTL_CONSTASCII_STRINGPARAM("(([/?#].*)?)"));
257*b1cdbd2cSJim Jagielski 				break;
258*b1cdbd2cSJim Jagielski 
259*b1cdbd2cSJim Jagielski 			case KIND_DOMAIN:
260*b1cdbd2cSJim Jagielski 				aBuffer.appendAscii(RTL_CONSTASCII_STRINGPARAM("([^/?#]"));
261*b1cdbd2cSJim Jagielski 				aBuffer.append(sal_Unicode(m_bEmptyDomain ? '*' : '+'));
262*b1cdbd2cSJim Jagielski 				if (m_aInfix.getLength() != 0)
263*b1cdbd2cSJim Jagielski 					appendStringLiteral(&aBuffer, m_aInfix);
264*b1cdbd2cSJim Jagielski 				aBuffer.
265*b1cdbd2cSJim Jagielski 					appendAscii(RTL_CONSTASCII_STRINGPARAM("([/?#].*)?)"));
266*b1cdbd2cSJim Jagielski 				break;
267*b1cdbd2cSJim Jagielski 		}
268*b1cdbd2cSJim Jagielski 		aBuffer.appendAscii(RTL_CONSTASCII_STRINGPARAM("->"));
269*b1cdbd2cSJim Jagielski 		if (bReverse)
270*b1cdbd2cSJim Jagielski 		{
271*b1cdbd2cSJim Jagielski 			if (m_aPrefix.getLength() != 0)
272*b1cdbd2cSJim Jagielski 				appendStringLiteral(&aBuffer, m_aPrefix);
273*b1cdbd2cSJim Jagielski 		}
274*b1cdbd2cSJim Jagielski 		else
275*b1cdbd2cSJim Jagielski 		{
276*b1cdbd2cSJim Jagielski 			if (m_aReversePrefix.getLength() != 0)
277*b1cdbd2cSJim Jagielski 				appendStringLiteral(&aBuffer, m_aReversePrefix);
278*b1cdbd2cSJim Jagielski 		}
279*b1cdbd2cSJim Jagielski 		aBuffer.appendAscii(RTL_CONSTASCII_STRINGPARAM("\\1"));
280*b1cdbd2cSJim Jagielski 		return aBuffer.makeStringAndClear();
281*b1cdbd2cSJim Jagielski 	}
282*b1cdbd2cSJim Jagielski 	else if (m_eKind == KIND_PREFIX && isScheme(m_aPrefix, true))
283*b1cdbd2cSJim Jagielski 		return m_aPrefix.copy(0, m_aPrefix.getLength() - 1);
284*b1cdbd2cSJim Jagielski 	else
285*b1cdbd2cSJim Jagielski 	{
286*b1cdbd2cSJim Jagielski 		rtl::OUStringBuffer aBuffer;
287*b1cdbd2cSJim Jagielski 		if (m_aPrefix.getLength() != 0)
288*b1cdbd2cSJim Jagielski 			appendStringLiteral(&aBuffer, m_aPrefix);
289*b1cdbd2cSJim Jagielski 		switch (m_eKind)
290*b1cdbd2cSJim Jagielski 		{
291*b1cdbd2cSJim Jagielski 			case KIND_PREFIX:
292*b1cdbd2cSJim Jagielski 				aBuffer.appendAscii(RTL_CONSTASCII_STRINGPARAM(".*"));
293*b1cdbd2cSJim Jagielski 				break;
294*b1cdbd2cSJim Jagielski 
295*b1cdbd2cSJim Jagielski 			case KIND_AUTHORITY:
296*b1cdbd2cSJim Jagielski 				aBuffer.appendAscii(RTL_CONSTASCII_STRINGPARAM("([/?#].*)?"));
297*b1cdbd2cSJim Jagielski 				break;
298*b1cdbd2cSJim Jagielski 
299*b1cdbd2cSJim Jagielski 			case KIND_DOMAIN:
300*b1cdbd2cSJim Jagielski 				aBuffer.appendAscii(RTL_CONSTASCII_STRINGPARAM("[^/?#]"));
301*b1cdbd2cSJim Jagielski 				aBuffer.append(sal_Unicode(m_bEmptyDomain ? '*' : '+'));
302*b1cdbd2cSJim Jagielski 				if (m_aInfix.getLength() != 0)
303*b1cdbd2cSJim Jagielski 					appendStringLiteral(&aBuffer, m_aInfix);
304*b1cdbd2cSJim Jagielski 				aBuffer.appendAscii(RTL_CONSTASCII_STRINGPARAM("([/?#].*)?"));
305*b1cdbd2cSJim Jagielski 				break;
306*b1cdbd2cSJim Jagielski 		}
307*b1cdbd2cSJim Jagielski 		return aBuffer.makeStringAndClear();
308*b1cdbd2cSJim Jagielski 	}
309*b1cdbd2cSJim Jagielski }
310*b1cdbd2cSJim Jagielski 
311*b1cdbd2cSJim Jagielski //============================================================================
312*b1cdbd2cSJim Jagielski namespace unnamed_ucb_regexp {
313*b1cdbd2cSJim Jagielski 
matchString(sal_Unicode const ** pBegin,sal_Unicode const * pEnd,sal_Char const * pString,size_t nStringLength)314*b1cdbd2cSJim Jagielski bool matchString(sal_Unicode const ** pBegin, sal_Unicode const * pEnd,
315*b1cdbd2cSJim Jagielski 				 sal_Char const * pString, size_t nStringLength)
316*b1cdbd2cSJim Jagielski {
317*b1cdbd2cSJim Jagielski 	sal_Unicode const * p = *pBegin;
318*b1cdbd2cSJim Jagielski 
319*b1cdbd2cSJim Jagielski 	sal_uChar const * q = reinterpret_cast< sal_uChar const * >(pString);
320*b1cdbd2cSJim Jagielski 	sal_uChar const * qEnd = q + nStringLength;
321*b1cdbd2cSJim Jagielski 
322*b1cdbd2cSJim Jagielski 	if (pEnd - p < qEnd - q)
323*b1cdbd2cSJim Jagielski 		return false;
324*b1cdbd2cSJim Jagielski 
325*b1cdbd2cSJim Jagielski 	while (q != qEnd)
326*b1cdbd2cSJim Jagielski 	{
327*b1cdbd2cSJim Jagielski 		sal_Unicode c1 = *p++;
328*b1cdbd2cSJim Jagielski 		sal_Unicode c2 = *q++;
329*b1cdbd2cSJim Jagielski 		if (c1 != c2)
330*b1cdbd2cSJim Jagielski 			return false;
331*b1cdbd2cSJim Jagielski 	}
332*b1cdbd2cSJim Jagielski 
333*b1cdbd2cSJim Jagielski 	*pBegin = p;
334*b1cdbd2cSJim Jagielski 	return true;
335*b1cdbd2cSJim Jagielski }
336*b1cdbd2cSJim Jagielski 
scanStringLiteral(sal_Unicode const ** pBegin,sal_Unicode const * pEnd,rtl::OUString * pString)337*b1cdbd2cSJim Jagielski bool scanStringLiteral(sal_Unicode const ** pBegin, sal_Unicode const * pEnd,
338*b1cdbd2cSJim Jagielski 					   rtl::OUString * pString)
339*b1cdbd2cSJim Jagielski {
340*b1cdbd2cSJim Jagielski 	sal_Unicode const * p = *pBegin;
341*b1cdbd2cSJim Jagielski 
342*b1cdbd2cSJim Jagielski 	if (p == pEnd || *p++ != '"')
343*b1cdbd2cSJim Jagielski 		return false;
344*b1cdbd2cSJim Jagielski 
345*b1cdbd2cSJim Jagielski 	rtl::OUStringBuffer aBuffer;
346*b1cdbd2cSJim Jagielski 	for (;;)
347*b1cdbd2cSJim Jagielski 	{
348*b1cdbd2cSJim Jagielski 		if (p == pEnd)
349*b1cdbd2cSJim Jagielski 			return false;
350*b1cdbd2cSJim Jagielski 		sal_Unicode c = *p++;
351*b1cdbd2cSJim Jagielski 		if (c == '"')
352*b1cdbd2cSJim Jagielski 			break;
353*b1cdbd2cSJim Jagielski 		if (c == '\\')
354*b1cdbd2cSJim Jagielski 		{
355*b1cdbd2cSJim Jagielski 			if (p == pEnd)
356*b1cdbd2cSJim Jagielski 				return false;
357*b1cdbd2cSJim Jagielski 			c = *p++;
358*b1cdbd2cSJim Jagielski 			if (c != '"' && c != '\\')
359*b1cdbd2cSJim Jagielski 				return false;
360*b1cdbd2cSJim Jagielski 		}
361*b1cdbd2cSJim Jagielski 		aBuffer.append(c);
362*b1cdbd2cSJim Jagielski 	}
363*b1cdbd2cSJim Jagielski 
364*b1cdbd2cSJim Jagielski 	*pBegin = p;
365*b1cdbd2cSJim Jagielski 	*pString = aBuffer.makeStringAndClear();
366*b1cdbd2cSJim Jagielski 	return true;
367*b1cdbd2cSJim Jagielski }
368*b1cdbd2cSJim Jagielski 
369*b1cdbd2cSJim Jagielski }
370*b1cdbd2cSJim Jagielski 
parse(rtl::OUString const & rRegexp)371*b1cdbd2cSJim Jagielski Regexp Regexp::parse(rtl::OUString const & rRegexp)
372*b1cdbd2cSJim Jagielski {
373*b1cdbd2cSJim Jagielski 	// Detect an input of '<scheme>' as an abbreviation of '"<scheme>:".*'
374*b1cdbd2cSJim Jagielski 	// where <scheme> is as defined in RFC 2396:
375*b1cdbd2cSJim Jagielski 	if (isScheme(rRegexp, false))
376*b1cdbd2cSJim Jagielski 		return Regexp(Regexp::KIND_PREFIX,
377*b1cdbd2cSJim Jagielski                       rRegexp
378*b1cdbd2cSJim Jagielski                           + rtl::OUString(RTL_CONSTASCII_USTRINGPARAM(":")),
379*b1cdbd2cSJim Jagielski                       false,
380*b1cdbd2cSJim Jagielski                       rtl::OUString(),
381*b1cdbd2cSJim Jagielski 					  false,
382*b1cdbd2cSJim Jagielski                       rtl::OUString());
383*b1cdbd2cSJim Jagielski 
384*b1cdbd2cSJim Jagielski 	sal_Unicode const * p = rRegexp.getStr();
385*b1cdbd2cSJim Jagielski 	sal_Unicode const * pEnd = p + rRegexp.getLength();
386*b1cdbd2cSJim Jagielski 
387*b1cdbd2cSJim Jagielski 	rtl::OUString aPrefix;
388*b1cdbd2cSJim Jagielski 	scanStringLiteral(&p, pEnd, &aPrefix);
389*b1cdbd2cSJim Jagielski 
390*b1cdbd2cSJim Jagielski 	if (p == pEnd)
391*b1cdbd2cSJim Jagielski 		throw lang::IllegalArgumentException();
392*b1cdbd2cSJim Jagielski 
393*b1cdbd2cSJim Jagielski 	if (matchString(&p, pEnd, RTL_CONSTASCII_STRINGPARAM(".*")))
394*b1cdbd2cSJim Jagielski 	{
395*b1cdbd2cSJim Jagielski 		if (p != pEnd)
396*b1cdbd2cSJim Jagielski 			throw lang::IllegalArgumentException();
397*b1cdbd2cSJim Jagielski 
398*b1cdbd2cSJim Jagielski 		return Regexp(Regexp::KIND_PREFIX, aPrefix, false, rtl::OUString(),
399*b1cdbd2cSJim Jagielski 					  false, rtl::OUString());
400*b1cdbd2cSJim Jagielski 	}
401*b1cdbd2cSJim Jagielski 	else if (matchString(&p, pEnd, RTL_CONSTASCII_STRINGPARAM("(.*)->")))
402*b1cdbd2cSJim Jagielski 	{
403*b1cdbd2cSJim Jagielski 		rtl::OUString aReversePrefix;
404*b1cdbd2cSJim Jagielski 		scanStringLiteral(&p, pEnd, &aReversePrefix);
405*b1cdbd2cSJim Jagielski 
406*b1cdbd2cSJim Jagielski 		if (!matchString(&p, pEnd, RTL_CONSTASCII_STRINGPARAM("\\1"))
407*b1cdbd2cSJim Jagielski 			|| p != pEnd)
408*b1cdbd2cSJim Jagielski 			throw lang::IllegalArgumentException();
409*b1cdbd2cSJim Jagielski 
410*b1cdbd2cSJim Jagielski 		return Regexp(Regexp::KIND_PREFIX, aPrefix, false, rtl::OUString(),
411*b1cdbd2cSJim Jagielski 					  true, aReversePrefix);
412*b1cdbd2cSJim Jagielski 	}
413*b1cdbd2cSJim Jagielski 	else if (matchString(&p, pEnd, RTL_CONSTASCII_STRINGPARAM("([/?#].*)?")))
414*b1cdbd2cSJim Jagielski 	{
415*b1cdbd2cSJim Jagielski 		if (p != pEnd)
416*b1cdbd2cSJim Jagielski 			throw lang::IllegalArgumentException();
417*b1cdbd2cSJim Jagielski 
418*b1cdbd2cSJim Jagielski 		return Regexp(Regexp::KIND_AUTHORITY, aPrefix, false, rtl::OUString(),
419*b1cdbd2cSJim Jagielski 					  false, rtl::OUString());
420*b1cdbd2cSJim Jagielski 	}
421*b1cdbd2cSJim Jagielski 	else if (matchString(&p, pEnd,
422*b1cdbd2cSJim Jagielski 						 RTL_CONSTASCII_STRINGPARAM("(([/?#].*)?)->")))
423*b1cdbd2cSJim Jagielski 	{
424*b1cdbd2cSJim Jagielski 		rtl::OUString aReversePrefix;
425*b1cdbd2cSJim Jagielski 		if (!(scanStringLiteral(&p, pEnd, &aReversePrefix)
426*b1cdbd2cSJim Jagielski 			  && matchString(&p, pEnd, RTL_CONSTASCII_STRINGPARAM("\\1"))
427*b1cdbd2cSJim Jagielski 			  && p == pEnd))
428*b1cdbd2cSJim Jagielski 			throw lang::IllegalArgumentException();
429*b1cdbd2cSJim Jagielski 
430*b1cdbd2cSJim Jagielski 		return Regexp(Regexp::KIND_AUTHORITY, aPrefix, false, rtl::OUString(),
431*b1cdbd2cSJim Jagielski 					  true, aReversePrefix);
432*b1cdbd2cSJim Jagielski 	}
433*b1cdbd2cSJim Jagielski 	else
434*b1cdbd2cSJim Jagielski 	{
435*b1cdbd2cSJim Jagielski 		bool bOpen = false;
436*b1cdbd2cSJim Jagielski 		if (p != pEnd && *p == '(')
437*b1cdbd2cSJim Jagielski 		{
438*b1cdbd2cSJim Jagielski 			++p;
439*b1cdbd2cSJim Jagielski 			bOpen = true;
440*b1cdbd2cSJim Jagielski 		}
441*b1cdbd2cSJim Jagielski 
442*b1cdbd2cSJim Jagielski 		if (!matchString(&p, pEnd, RTL_CONSTASCII_STRINGPARAM("[^/?#]")))
443*b1cdbd2cSJim Jagielski 			throw lang::IllegalArgumentException();
444*b1cdbd2cSJim Jagielski 
445*b1cdbd2cSJim Jagielski 		if (p == pEnd || (*p != '*' && *p != '+'))
446*b1cdbd2cSJim Jagielski 			throw lang::IllegalArgumentException();
447*b1cdbd2cSJim Jagielski 		bool bEmptyDomain = *p++ == '*';
448*b1cdbd2cSJim Jagielski 
449*b1cdbd2cSJim Jagielski 		rtl::OUString aInfix;
450*b1cdbd2cSJim Jagielski 		scanStringLiteral(&p, pEnd, &aInfix);
451*b1cdbd2cSJim Jagielski 
452*b1cdbd2cSJim Jagielski 		if (!matchString(&p, pEnd, RTL_CONSTASCII_STRINGPARAM("([/?#].*)?")))
453*b1cdbd2cSJim Jagielski 			throw lang::IllegalArgumentException();
454*b1cdbd2cSJim Jagielski 
455*b1cdbd2cSJim Jagielski 		rtl::OUString aReversePrefix;
456*b1cdbd2cSJim Jagielski 		if (bOpen
457*b1cdbd2cSJim Jagielski 			&& !(matchString(&p, pEnd, RTL_CONSTASCII_STRINGPARAM(")->"))
458*b1cdbd2cSJim Jagielski 				 && scanStringLiteral(&p, pEnd, &aReversePrefix)
459*b1cdbd2cSJim Jagielski 				 && matchString(&p, pEnd, RTL_CONSTASCII_STRINGPARAM("\\1"))))
460*b1cdbd2cSJim Jagielski 			throw lang::IllegalArgumentException();
461*b1cdbd2cSJim Jagielski 
462*b1cdbd2cSJim Jagielski 		if (p != pEnd)
463*b1cdbd2cSJim Jagielski 			throw lang::IllegalArgumentException();
464*b1cdbd2cSJim Jagielski 
465*b1cdbd2cSJim Jagielski 		return Regexp(Regexp::KIND_DOMAIN, aPrefix, bEmptyDomain, aInfix,
466*b1cdbd2cSJim Jagielski 					  bOpen, aReversePrefix);
467*b1cdbd2cSJim Jagielski 	}
468*b1cdbd2cSJim Jagielski }
469*b1cdbd2cSJim Jagielski 
470