1*b1cdbd2cSJim Jagielski /**************************************************************
2*b1cdbd2cSJim Jagielski  *
3*b1cdbd2cSJim Jagielski  * Licensed to the Apache Software Foundation (ASF) under one
4*b1cdbd2cSJim Jagielski  * or more contributor license agreements.  See the NOTICE file
5*b1cdbd2cSJim Jagielski  * distributed with this work for additional information
6*b1cdbd2cSJim Jagielski  * regarding copyright ownership.  The ASF licenses this file
7*b1cdbd2cSJim Jagielski  * to you under the Apache License, Version 2.0 (the
8*b1cdbd2cSJim Jagielski  * "License"); you may not use this file except in compliance
9*b1cdbd2cSJim Jagielski  * with the License.  You may obtain a copy of the License at
10*b1cdbd2cSJim Jagielski  *
11*b1cdbd2cSJim Jagielski  *   http://www.apache.org/licenses/LICENSE-2.0
12*b1cdbd2cSJim Jagielski  *
13*b1cdbd2cSJim Jagielski  * Unless required by applicable law or agreed to in writing,
14*b1cdbd2cSJim Jagielski  * software distributed under the License is distributed on an
15*b1cdbd2cSJim Jagielski  * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
16*b1cdbd2cSJim Jagielski  * KIND, either express or implied.  See the License for the
17*b1cdbd2cSJim Jagielski  * specific language governing permissions and limitations
18*b1cdbd2cSJim Jagielski  * under the License.
19*b1cdbd2cSJim Jagielski  *
20*b1cdbd2cSJim Jagielski  *************************************************************/
21*b1cdbd2cSJim Jagielski 
22*b1cdbd2cSJim Jagielski 
23*b1cdbd2cSJim Jagielski 
24*b1cdbd2cSJim Jagielski // MARKER(update_precomp.py): autogen include statement, do not remove
25*b1cdbd2cSJim Jagielski #include "precompiled_i18npool.hxx"
26*b1cdbd2cSJim Jagielski #include <breakiterator_th.hxx>
27*b1cdbd2cSJim Jagielski #include <wtt.h>
28*b1cdbd2cSJim Jagielski 
29*b1cdbd2cSJim Jagielski #include <string.h>	// for memset
30*b1cdbd2cSJim Jagielski 
31*b1cdbd2cSJim Jagielski using namespace ::com::sun::star::uno;
32*b1cdbd2cSJim Jagielski using namespace ::com::sun::star::lang;
33*b1cdbd2cSJim Jagielski using namespace ::rtl;
34*b1cdbd2cSJim Jagielski 
35*b1cdbd2cSJim Jagielski namespace com { namespace sun { namespace star { namespace i18n {
36*b1cdbd2cSJim Jagielski 
37*b1cdbd2cSJim Jagielski //	----------------------------------------------------
38*b1cdbd2cSJim Jagielski //	class Breakiterator_th
39*b1cdbd2cSJim Jagielski //	----------------------------------------------------;
BreakIterator_th()40*b1cdbd2cSJim Jagielski BreakIterator_th::BreakIterator_th()
41*b1cdbd2cSJim Jagielski {
42*b1cdbd2cSJim Jagielski 	cBreakIterator = "com.sun.star.i18n.BreakIterator_th";
43*b1cdbd2cSJim Jagielski     wordRule=lineRule=NULL;
44*b1cdbd2cSJim Jagielski }
45*b1cdbd2cSJim Jagielski 
~BreakIterator_th()46*b1cdbd2cSJim Jagielski BreakIterator_th::~BreakIterator_th()
47*b1cdbd2cSJim Jagielski {
48*b1cdbd2cSJim Jagielski }
49*b1cdbd2cSJim Jagielski 
50*b1cdbd2cSJim Jagielski #define SARA_AM 0x0E33
51*b1cdbd2cSJim Jagielski 
52*b1cdbd2cSJim Jagielski /*
53*b1cdbd2cSJim Jagielski  * cell composition states
54*b1cdbd2cSJim Jagielski  */
55*b1cdbd2cSJim Jagielski 
56*b1cdbd2cSJim Jagielski #define ST_COM	1	// Compose the following character with leading char and display in the same cell
57*b1cdbd2cSJim Jagielski #define ST_NXT	2	// display the following character in the next cell
58*b1cdbd2cSJim Jagielski #define ST_NDP	3	// non-display
59*b1cdbd2cSJim Jagielski 
60*b1cdbd2cSJim Jagielski static const sal_Int16 thaiCompRel[MAX_CT][MAX_CT] = {
61*b1cdbd2cSJim Jagielski 	//  C  N  C  L  F  F  F  B  B  B  T  A  A  A  A  A  A
62*b1cdbd2cSJim Jagielski 	//  T  O  O  V  V  V  V  V  V  D  O  D  D  D  V  V  V
63*b1cdbd2cSJim Jagielski 	//  R  N  N     1  2  3  1  2     N  1  2  3  1  2  3
64*b1cdbd2cSJim Jagielski 	//  L     S                       E
65*b1cdbd2cSJim Jagielski 	//  0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16
66*b1cdbd2cSJim Jagielski 	{   ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT   }, // CTRL 0
67*b1cdbd2cSJim Jagielski 	{   ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT   }, // NON  1
68*b1cdbd2cSJim Jagielski 	{   ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_COM, ST_COM, ST_COM, ST_COM, ST_COM, ST_COM, ST_COM, ST_COM, ST_COM, ST_COM   }, // CONS 2
69*b1cdbd2cSJim Jagielski 	{   ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT   }, // LV   3
70*b1cdbd2cSJim Jagielski 	{   ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT   }, // FV1  4
71*b1cdbd2cSJim Jagielski 	{   ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT   }, // FV2  5
72*b1cdbd2cSJim Jagielski 	{   ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT   }, // FV3  6
73*b1cdbd2cSJim Jagielski 	{   ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_COM, ST_COM, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT   }, // BV1  7
74*b1cdbd2cSJim Jagielski 	{   ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_COM, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT   }, // BV2  8
75*b1cdbd2cSJim Jagielski 	{   ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT   }, // BD   9
76*b1cdbd2cSJim Jagielski 	{   ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT   }, // TONE 10
77*b1cdbd2cSJim Jagielski 	{   ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT   }, // AD1  11
78*b1cdbd2cSJim Jagielski 	{   ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT   }, // AD2  12
79*b1cdbd2cSJim Jagielski 	{   ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT   }, // AD3  13
80*b1cdbd2cSJim Jagielski 	{   ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_COM, ST_COM, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT   }, // AV1  14
81*b1cdbd2cSJim Jagielski 	{   ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_COM, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT   }, // AV2  15
82*b1cdbd2cSJim Jagielski 	{   ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_COM, ST_NXT, ST_COM, ST_NXT, ST_NXT, ST_NXT, ST_NXT   } // AV3  16
83*b1cdbd2cSJim Jagielski 
84*b1cdbd2cSJim Jagielski };
85*b1cdbd2cSJim Jagielski 
86*b1cdbd2cSJim Jagielski const sal_uInt32 is_ST_COM = (1<<CT_CTRL)|(1<<CT_NON)|(1<<CT_CONS)|(1<<CT_TONE);
87*b1cdbd2cSJim Jagielski 
getCombState(const sal_Unicode * text,sal_Int32 pos)88*b1cdbd2cSJim Jagielski static sal_uInt16 SAL_CALL getCombState(const sal_Unicode *text, sal_Int32 pos)
89*b1cdbd2cSJim Jagielski {
90*b1cdbd2cSJim Jagielski 	sal_uInt16 ch1 = getCharType(text[pos]);
91*b1cdbd2cSJim Jagielski 	sal_uInt16 ch2 = getCharType(text[pos+1]);
92*b1cdbd2cSJim Jagielski 
93*b1cdbd2cSJim Jagielski 	if (text[pos+1] == SARA_AM) {
94*b1cdbd2cSJim Jagielski 	    if ((1 << ch1) & is_ST_COM)
95*b1cdbd2cSJim Jagielski 		return  ST_COM;
96*b1cdbd2cSJim Jagielski 	    else
97*b1cdbd2cSJim Jagielski 		ch2 = CT_AD1;
98*b1cdbd2cSJim Jagielski 	}
99*b1cdbd2cSJim Jagielski 
100*b1cdbd2cSJim Jagielski 	return thaiCompRel[ch1][ch2];
101*b1cdbd2cSJim Jagielski }
102*b1cdbd2cSJim Jagielski 
103*b1cdbd2cSJim Jagielski 
getACell(const sal_Unicode * text,sal_Int32 pos,sal_Int32 len)104*b1cdbd2cSJim Jagielski static sal_Int32 SAL_CALL getACell(const sal_Unicode *text, sal_Int32 pos, sal_Int32 len)
105*b1cdbd2cSJim Jagielski {
106*b1cdbd2cSJim Jagielski 	sal_uInt32 curr = 1;
107*b1cdbd2cSJim Jagielski 	for (; pos + 1 < len && getCombState(text, pos) == ST_COM; curr++, pos++) {}
108*b1cdbd2cSJim Jagielski 	return curr;
109*b1cdbd2cSJim Jagielski }
110*b1cdbd2cSJim Jagielski 
111*b1cdbd2cSJim Jagielski #define is_Thai(c)	(0x0e00 <= c && c <= 0x0e7f) // Unicode definition for Thai
112*b1cdbd2cSJim Jagielski 
makeIndex(const OUString & Text,sal_Int32 nStartPos)113*b1cdbd2cSJim Jagielski void SAL_CALL BreakIterator_th::makeIndex(const OUString& Text, sal_Int32 nStartPos)
114*b1cdbd2cSJim Jagielski 	throw(RuntimeException)
115*b1cdbd2cSJim Jagielski {
116*b1cdbd2cSJim Jagielski 	if (Text != cachedText) {
117*b1cdbd2cSJim Jagielski 	    cachedText = Text;
118*b1cdbd2cSJim Jagielski 	    if (cellIndexSize < cachedText.getLength()) {
119*b1cdbd2cSJim Jagielski 		cellIndexSize = cachedText.getLength();
120*b1cdbd2cSJim Jagielski 		free(nextCellIndex);
121*b1cdbd2cSJim Jagielski 		free(previousCellIndex);
122*b1cdbd2cSJim Jagielski 		nextCellIndex = (sal_Int32*) calloc(cellIndexSize, sizeof(sal_Int32));
123*b1cdbd2cSJim Jagielski 		previousCellIndex = (sal_Int32*) calloc(cellIndexSize, sizeof(sal_Int32));
124*b1cdbd2cSJim Jagielski 	    }
125*b1cdbd2cSJim Jagielski 	    // reset nextCell for new Text
126*b1cdbd2cSJim Jagielski 	    memset(nextCellIndex, 0, cellIndexSize * sizeof(sal_Int32));
127*b1cdbd2cSJim Jagielski 	}
128*b1cdbd2cSJim Jagielski 	else if (nextCellIndex[nStartPos] > 0 || ! is_Thai(Text[nStartPos]))
129*b1cdbd2cSJim Jagielski 	    return;
130*b1cdbd2cSJim Jagielski 
131*b1cdbd2cSJim Jagielski 	const sal_Unicode* str = cachedText.getStr();
132*b1cdbd2cSJim Jagielski 	sal_Int32 len = cachedText.getLength(), startPos, endPos;
133*b1cdbd2cSJim Jagielski 
134*b1cdbd2cSJim Jagielski 	startPos = nStartPos;
135*b1cdbd2cSJim Jagielski 	while (startPos > 0 && is_Thai(str[startPos-1])) startPos--;
136*b1cdbd2cSJim Jagielski 	endPos = nStartPos+1;
137*b1cdbd2cSJim Jagielski 	while (endPos < len && is_Thai(str[endPos])) endPos++;
138*b1cdbd2cSJim Jagielski 
139*b1cdbd2cSJim Jagielski 	sal_Int32 start, end, pos;
140*b1cdbd2cSJim Jagielski 	pos = start = end = startPos;
141*b1cdbd2cSJim Jagielski 
142*b1cdbd2cSJim Jagielski 	while (pos < endPos) {
143*b1cdbd2cSJim Jagielski 	    end += getACell(str, start, endPos);
144*b1cdbd2cSJim Jagielski 	    while (pos < end) {
145*b1cdbd2cSJim Jagielski 		nextCellIndex[pos] = end;
146*b1cdbd2cSJim Jagielski 		previousCellIndex[pos] = start;
147*b1cdbd2cSJim Jagielski 		pos++;
148*b1cdbd2cSJim Jagielski 	    }
149*b1cdbd2cSJim Jagielski 	    start = end;
150*b1cdbd2cSJim Jagielski 	}
151*b1cdbd2cSJim Jagielski }
152*b1cdbd2cSJim Jagielski 
153*b1cdbd2cSJim Jagielski } } } }
154