1*b1cdbd2cSJim Jagielski /**************************************************************
2*b1cdbd2cSJim Jagielski *
3*b1cdbd2cSJim Jagielski * Licensed to the Apache Software Foundation (ASF) under one
4*b1cdbd2cSJim Jagielski * or more contributor license agreements. See the NOTICE file
5*b1cdbd2cSJim Jagielski * distributed with this work for additional information
6*b1cdbd2cSJim Jagielski * regarding copyright ownership. The ASF licenses this file
7*b1cdbd2cSJim Jagielski * to you under the Apache License, Version 2.0 (the
8*b1cdbd2cSJim Jagielski * "License"); you may not use this file except in compliance
9*b1cdbd2cSJim Jagielski * with the License. You may obtain a copy of the License at
10*b1cdbd2cSJim Jagielski *
11*b1cdbd2cSJim Jagielski * http://www.apache.org/licenses/LICENSE-2.0
12*b1cdbd2cSJim Jagielski *
13*b1cdbd2cSJim Jagielski * Unless required by applicable law or agreed to in writing,
14*b1cdbd2cSJim Jagielski * software distributed under the License is distributed on an
15*b1cdbd2cSJim Jagielski * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
16*b1cdbd2cSJim Jagielski * KIND, either express or implied. See the License for the
17*b1cdbd2cSJim Jagielski * specific language governing permissions and limitations
18*b1cdbd2cSJim Jagielski * under the License.
19*b1cdbd2cSJim Jagielski *
20*b1cdbd2cSJim Jagielski *************************************************************/
21*b1cdbd2cSJim Jagielski
22*b1cdbd2cSJim Jagielski
23*b1cdbd2cSJim Jagielski
24*b1cdbd2cSJim Jagielski // MARKER(update_precomp.py): autogen include statement, do not remove
25*b1cdbd2cSJim Jagielski #include "precompiled_i18npool.hxx"
26*b1cdbd2cSJim Jagielski #include <breakiterator_th.hxx>
27*b1cdbd2cSJim Jagielski #include <wtt.h>
28*b1cdbd2cSJim Jagielski
29*b1cdbd2cSJim Jagielski #include <string.h> // for memset
30*b1cdbd2cSJim Jagielski
31*b1cdbd2cSJim Jagielski using namespace ::com::sun::star::uno;
32*b1cdbd2cSJim Jagielski using namespace ::com::sun::star::lang;
33*b1cdbd2cSJim Jagielski using namespace ::rtl;
34*b1cdbd2cSJim Jagielski
35*b1cdbd2cSJim Jagielski namespace com { namespace sun { namespace star { namespace i18n {
36*b1cdbd2cSJim Jagielski
37*b1cdbd2cSJim Jagielski // ----------------------------------------------------
38*b1cdbd2cSJim Jagielski // class Breakiterator_th
39*b1cdbd2cSJim Jagielski // ----------------------------------------------------;
BreakIterator_th()40*b1cdbd2cSJim Jagielski BreakIterator_th::BreakIterator_th()
41*b1cdbd2cSJim Jagielski {
42*b1cdbd2cSJim Jagielski cBreakIterator = "com.sun.star.i18n.BreakIterator_th";
43*b1cdbd2cSJim Jagielski wordRule=lineRule=NULL;
44*b1cdbd2cSJim Jagielski }
45*b1cdbd2cSJim Jagielski
~BreakIterator_th()46*b1cdbd2cSJim Jagielski BreakIterator_th::~BreakIterator_th()
47*b1cdbd2cSJim Jagielski {
48*b1cdbd2cSJim Jagielski }
49*b1cdbd2cSJim Jagielski
50*b1cdbd2cSJim Jagielski #define SARA_AM 0x0E33
51*b1cdbd2cSJim Jagielski
52*b1cdbd2cSJim Jagielski /*
53*b1cdbd2cSJim Jagielski * cell composition states
54*b1cdbd2cSJim Jagielski */
55*b1cdbd2cSJim Jagielski
56*b1cdbd2cSJim Jagielski #define ST_COM 1 // Compose the following character with leading char and display in the same cell
57*b1cdbd2cSJim Jagielski #define ST_NXT 2 // display the following character in the next cell
58*b1cdbd2cSJim Jagielski #define ST_NDP 3 // non-display
59*b1cdbd2cSJim Jagielski
60*b1cdbd2cSJim Jagielski static const sal_Int16 thaiCompRel[MAX_CT][MAX_CT] = {
61*b1cdbd2cSJim Jagielski // C N C L F F F B B B T A A A A A A
62*b1cdbd2cSJim Jagielski // T O O V V V V V V D O D D D V V V
63*b1cdbd2cSJim Jagielski // R N N 1 2 3 1 2 N 1 2 3 1 2 3
64*b1cdbd2cSJim Jagielski // L S E
65*b1cdbd2cSJim Jagielski // 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
66*b1cdbd2cSJim Jagielski { ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT }, // CTRL 0
67*b1cdbd2cSJim Jagielski { ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT }, // NON 1
68*b1cdbd2cSJim Jagielski { ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_COM, ST_COM, ST_COM, ST_COM, ST_COM, ST_COM, ST_COM, ST_COM, ST_COM, ST_COM }, // CONS 2
69*b1cdbd2cSJim Jagielski { ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT }, // LV 3
70*b1cdbd2cSJim Jagielski { ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT }, // FV1 4
71*b1cdbd2cSJim Jagielski { ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT }, // FV2 5
72*b1cdbd2cSJim Jagielski { ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT }, // FV3 6
73*b1cdbd2cSJim Jagielski { ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_COM, ST_COM, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT }, // BV1 7
74*b1cdbd2cSJim Jagielski { ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_COM, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT }, // BV2 8
75*b1cdbd2cSJim Jagielski { ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT }, // BD 9
76*b1cdbd2cSJim Jagielski { ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT }, // TONE 10
77*b1cdbd2cSJim Jagielski { ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT }, // AD1 11
78*b1cdbd2cSJim Jagielski { ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT }, // AD2 12
79*b1cdbd2cSJim Jagielski { ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT }, // AD3 13
80*b1cdbd2cSJim Jagielski { ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_COM, ST_COM, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT }, // AV1 14
81*b1cdbd2cSJim Jagielski { ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_COM, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT }, // AV2 15
82*b1cdbd2cSJim Jagielski { ST_NDP, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_NXT, ST_COM, ST_NXT, ST_COM, ST_NXT, ST_NXT, ST_NXT, ST_NXT } // AV3 16
83*b1cdbd2cSJim Jagielski
84*b1cdbd2cSJim Jagielski };
85*b1cdbd2cSJim Jagielski
86*b1cdbd2cSJim Jagielski const sal_uInt32 is_ST_COM = (1<<CT_CTRL)|(1<<CT_NON)|(1<<CT_CONS)|(1<<CT_TONE);
87*b1cdbd2cSJim Jagielski
getCombState(const sal_Unicode * text,sal_Int32 pos)88*b1cdbd2cSJim Jagielski static sal_uInt16 SAL_CALL getCombState(const sal_Unicode *text, sal_Int32 pos)
89*b1cdbd2cSJim Jagielski {
90*b1cdbd2cSJim Jagielski sal_uInt16 ch1 = getCharType(text[pos]);
91*b1cdbd2cSJim Jagielski sal_uInt16 ch2 = getCharType(text[pos+1]);
92*b1cdbd2cSJim Jagielski
93*b1cdbd2cSJim Jagielski if (text[pos+1] == SARA_AM) {
94*b1cdbd2cSJim Jagielski if ((1 << ch1) & is_ST_COM)
95*b1cdbd2cSJim Jagielski return ST_COM;
96*b1cdbd2cSJim Jagielski else
97*b1cdbd2cSJim Jagielski ch2 = CT_AD1;
98*b1cdbd2cSJim Jagielski }
99*b1cdbd2cSJim Jagielski
100*b1cdbd2cSJim Jagielski return thaiCompRel[ch1][ch2];
101*b1cdbd2cSJim Jagielski }
102*b1cdbd2cSJim Jagielski
103*b1cdbd2cSJim Jagielski
getACell(const sal_Unicode * text,sal_Int32 pos,sal_Int32 len)104*b1cdbd2cSJim Jagielski static sal_Int32 SAL_CALL getACell(const sal_Unicode *text, sal_Int32 pos, sal_Int32 len)
105*b1cdbd2cSJim Jagielski {
106*b1cdbd2cSJim Jagielski sal_uInt32 curr = 1;
107*b1cdbd2cSJim Jagielski for (; pos + 1 < len && getCombState(text, pos) == ST_COM; curr++, pos++) {}
108*b1cdbd2cSJim Jagielski return curr;
109*b1cdbd2cSJim Jagielski }
110*b1cdbd2cSJim Jagielski
111*b1cdbd2cSJim Jagielski #define is_Thai(c) (0x0e00 <= c && c <= 0x0e7f) // Unicode definition for Thai
112*b1cdbd2cSJim Jagielski
makeIndex(const OUString & Text,sal_Int32 nStartPos)113*b1cdbd2cSJim Jagielski void SAL_CALL BreakIterator_th::makeIndex(const OUString& Text, sal_Int32 nStartPos)
114*b1cdbd2cSJim Jagielski throw(RuntimeException)
115*b1cdbd2cSJim Jagielski {
116*b1cdbd2cSJim Jagielski if (Text != cachedText) {
117*b1cdbd2cSJim Jagielski cachedText = Text;
118*b1cdbd2cSJim Jagielski if (cellIndexSize < cachedText.getLength()) {
119*b1cdbd2cSJim Jagielski cellIndexSize = cachedText.getLength();
120*b1cdbd2cSJim Jagielski free(nextCellIndex);
121*b1cdbd2cSJim Jagielski free(previousCellIndex);
122*b1cdbd2cSJim Jagielski nextCellIndex = (sal_Int32*) calloc(cellIndexSize, sizeof(sal_Int32));
123*b1cdbd2cSJim Jagielski previousCellIndex = (sal_Int32*) calloc(cellIndexSize, sizeof(sal_Int32));
124*b1cdbd2cSJim Jagielski }
125*b1cdbd2cSJim Jagielski // reset nextCell for new Text
126*b1cdbd2cSJim Jagielski memset(nextCellIndex, 0, cellIndexSize * sizeof(sal_Int32));
127*b1cdbd2cSJim Jagielski }
128*b1cdbd2cSJim Jagielski else if (nextCellIndex[nStartPos] > 0 || ! is_Thai(Text[nStartPos]))
129*b1cdbd2cSJim Jagielski return;
130*b1cdbd2cSJim Jagielski
131*b1cdbd2cSJim Jagielski const sal_Unicode* str = cachedText.getStr();
132*b1cdbd2cSJim Jagielski sal_Int32 len = cachedText.getLength(), startPos, endPos;
133*b1cdbd2cSJim Jagielski
134*b1cdbd2cSJim Jagielski startPos = nStartPos;
135*b1cdbd2cSJim Jagielski while (startPos > 0 && is_Thai(str[startPos-1])) startPos--;
136*b1cdbd2cSJim Jagielski endPos = nStartPos+1;
137*b1cdbd2cSJim Jagielski while (endPos < len && is_Thai(str[endPos])) endPos++;
138*b1cdbd2cSJim Jagielski
139*b1cdbd2cSJim Jagielski sal_Int32 start, end, pos;
140*b1cdbd2cSJim Jagielski pos = start = end = startPos;
141*b1cdbd2cSJim Jagielski
142*b1cdbd2cSJim Jagielski while (pos < endPos) {
143*b1cdbd2cSJim Jagielski end += getACell(str, start, endPos);
144*b1cdbd2cSJim Jagielski while (pos < end) {
145*b1cdbd2cSJim Jagielski nextCellIndex[pos] = end;
146*b1cdbd2cSJim Jagielski previousCellIndex[pos] = start;
147*b1cdbd2cSJim Jagielski pos++;
148*b1cdbd2cSJim Jagielski }
149*b1cdbd2cSJim Jagielski start = end;
150*b1cdbd2cSJim Jagielski }
151*b1cdbd2cSJim Jagielski }
152*b1cdbd2cSJim Jagielski
153*b1cdbd2cSJim Jagielski } } } }
154