Context Navigation

← Previous Revision
Latest Revision
Next Revision →
Blame
Revision Log

source: code/trunk/vendor/github.com/google/shlex/shlex.go@ 822

Last change on this file since 822 was 822, checked in by yakumo.izuru, 22 months ago

Prefer immortal.run over runit and rc.d, use vendored modules
for convenience.

Signed-off-by: Izuru Yakumo <yakumo.izuru@…>

File size: 9.7 KB

Line
1	/*
2	Copyright 2012 Google Inc. All Rights Reserved.
3
4	Licensed under the Apache License, Version 2.0 (the "License");
5	you may not use this file except in compliance with the License.
6	You may obtain a copy of the License at
7
8	http://www.apache.org/licenses/LICENSE-2.0
9
10	Unless required by applicable law or agreed to in writing, software
11	distributed under the License is distributed on an "AS IS" BASIS,
12	WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13	See the License for the specific language governing permissions and
14	limitations under the License.
15	*/
16
17	/*
18	Package shlex implements a simple lexer which splits input in to tokens using
19	shell-style rules for quoting and commenting.
20
21	The basic use case uses the default ASCII lexer to split a string into sub-strings:
22
23	shlex.Split("one \"two three\" four") -> []string{"one", "two three", "four"}
24
25	To process a stream of strings:
26
27	l := NewLexer(os.Stdin)
28	for ; token, err := l.Next(); err != nil {
29	// process token
30	}
31
32	To access the raw token stream (which includes tokens for comments):
33
34	t := NewTokenizer(os.Stdin)
35	for ; token, err := t.Next(); err != nil {
36	// process token
37	}
38
39	*/
40	package shlex
41
42	import (
43	"bufio"
44	"fmt"
45	"io"
46	"strings"
47	)
48
49	// TokenType is a top-level token classification: A word, space, comment, unknown.
50	type TokenType int
51
52	// runeTokenClass is the type of a UTF-8 character classification: A quote, space, escape.
53	type runeTokenClass int
54
55	// the internal state used by the lexer state machine
56	type lexerState int
57
58	// Token is a (type, value) pair representing a lexographical token.
59	type Token struct {
60	tokenType TokenType
61	value string
62	}
63
64	// Equal reports whether tokens a, and b, are equal.
65	// Two tokens are equal if both their types and values are equal. A nil token can
66	// never be equal to another token.
67	func (a Token) Equal(b Token) bool {
68	if a == nil \|\| b == nil {
69	return false
70	}
71	if a.tokenType != b.tokenType {
72	return false
73	}
74	return a.value == b.value
75	}
76
77	// Named classes of UTF-8 runes
78	const (
79	spaceRunes = " \t\r\n"
80	escapingQuoteRunes = `"`
81	nonEscapingQuoteRunes = "'"
82	escapeRunes = `\`
83	commentRunes = "#"
84	)
85
86	// Classes of rune token
87	const (
88	unknownRuneClass runeTokenClass = iota
89	spaceRuneClass
90	escapingQuoteRuneClass
91	nonEscapingQuoteRuneClass
92	escapeRuneClass
93	commentRuneClass
94	eofRuneClass
95	)
96
97	// Classes of lexographic token
98	const (
99	UnknownToken TokenType = iota
100	WordToken
101	SpaceToken
102	CommentToken
103	)
104
105	// Lexer state machine states
106	const (
107	startState lexerState = iota // no runes have been seen
108	inWordState // processing regular runes in a word
109	escapingState // we have just consumed an escape rune; the next rune is literal
110	escapingQuotedState // we have just consumed an escape rune within a quoted string
111	quotingEscapingState // we are within a quoted string that supports escaping ("...")
112	quotingState // we are within a string that does not support escaping ('...')
113	commentState // we are within a comment (everything following an unquoted or unescaped #
114	)
115
116	// tokenClassifier is used for classifying rune characters.
117	type tokenClassifier map[rune]runeTokenClass
118
119	func (typeMap tokenClassifier) addRuneClass(runes string, tokenType runeTokenClass) {
120	for _, runeChar := range runes {
121	typeMap[runeChar] = tokenType
122	}
123	}
124
125	// newDefaultClassifier creates a new classifier for ASCII characters.
126	func newDefaultClassifier() tokenClassifier {
127	t := tokenClassifier{}
128	t.addRuneClass(spaceRunes, spaceRuneClass)
129	t.addRuneClass(escapingQuoteRunes, escapingQuoteRuneClass)
130	t.addRuneClass(nonEscapingQuoteRunes, nonEscapingQuoteRuneClass)
131	t.addRuneClass(escapeRunes, escapeRuneClass)
132	t.addRuneClass(commentRunes, commentRuneClass)
133	return t
134	}
135
136	// ClassifyRune classifiees a rune
137	func (t tokenClassifier) ClassifyRune(runeVal rune) runeTokenClass {
138	return t[runeVal]
139	}
140
141	// Lexer turns an input stream into a sequence of tokens. Whitespace and comments are skipped.
142	type Lexer Tokenizer
143
144	// NewLexer creates a new lexer from an input stream.
145	func NewLexer(r io.Reader) *Lexer {
146
147	return (*Lexer)(NewTokenizer(r))
148	}
149
150	// Next returns the next word, or an error. If there are no more words,
151	// the error will be io.EOF.
152	func (l *Lexer) Next() (string, error) {
153	for {
154	token, err := (*Tokenizer)(l).Next()
155	if err != nil {
156	return "", err
157	}
158	switch token.tokenType {
159	case WordToken:
160	return token.value, nil
161	case CommentToken:
162	// skip comments
163	default:
164	return "", fmt.Errorf("Unknown token type: %v", token.tokenType)
165	}
166	}
167	}
168
169	// Tokenizer turns an input stream into a sequence of typed tokens
170	type Tokenizer struct {
171	input bufio.Reader
172	classifier tokenClassifier
173	}
174
175	// NewTokenizer creates a new tokenizer from an input stream.
176	func NewTokenizer(r io.Reader) *Tokenizer {
177	input := bufio.NewReader(r)
178	classifier := newDefaultClassifier()
179	return &Tokenizer{
180	input: *input,
181	classifier: classifier}
182	}
183
184	// scanStream scans the stream for the next token using the internal state machine.
185	// It will panic if it encounters a rune which it does not know how to handle.
186	func (t Tokenizer) scanStream() (Token, error) {
187	state := startState
188	var tokenType TokenType
189	var value []rune
190	var nextRune rune
191	var nextRuneType runeTokenClass
192	var err error
193
194	for {
195	nextRune, _, err = t.input.ReadRune()
196	nextRuneType = t.classifier.ClassifyRune(nextRune)
197
198	if err == io.EOF {
199	nextRuneType = eofRuneClass
200	err = nil
201	} else if err != nil {
202	return nil, err
203	}
204
205	switch state {
206	case startState: // no runes read yet
207	{
208	switch nextRuneType {
209	case eofRuneClass:
210	{
211	return nil, io.EOF
212	}
213	case spaceRuneClass:
214	{
215	}
216	case escapingQuoteRuneClass:
217	{
218	tokenType = WordToken
219	state = quotingEscapingState
220	}
221	case nonEscapingQuoteRuneClass:
222	{
223	tokenType = WordToken
224	state = quotingState
225	}
226	case escapeRuneClass:
227	{
228	tokenType = WordToken
229	state = escapingState
230	}
231	case commentRuneClass:
232	{
233	tokenType = CommentToken
234	state = commentState
235	}
236	default:
237	{
238	tokenType = WordToken
239	value = append(value, nextRune)
240	state = inWordState
241	}
242	}
243	}
244	case inWordState: // in a regular word
245	{
246	switch nextRuneType {
247	case eofRuneClass:
248	{
249	token := &Token{
250	tokenType: tokenType,
251	value: string(value)}
252	return token, err
253	}
254	case spaceRuneClass:
255	{
256	token := &Token{
257	tokenType: tokenType,
258	value: string(value)}
259	return token, err
260	}
261	case escapingQuoteRuneClass:
262	{
263	state = quotingEscapingState
264	}
265	case nonEscapingQuoteRuneClass:
266	{
267	state = quotingState
268	}
269	case escapeRuneClass:
270	{
271	state = escapingState
272	}
273	default:
274	{
275	value = append(value, nextRune)
276	}
277	}
278	}
279	case escapingState: // the rune after an escape character
280	{
281	switch nextRuneType {
282	case eofRuneClass:
283	{
284	err = fmt.Errorf("EOF found after escape character")
285	token := &Token{
286	tokenType: tokenType,
287	value: string(value)}
288	return token, err
289	}
290	default:
291	{
292	state = inWordState
293	value = append(value, nextRune)
294	}
295	}
296	}
297	case escapingQuotedState: // the next rune after an escape character, in double quotes
298	{
299	switch nextRuneType {
300	case eofRuneClass:
301	{
302	err = fmt.Errorf("EOF found after escape character")
303	token := &Token{
304	tokenType: tokenType,
305	value: string(value)}
306	return token, err
307	}
308	default:
309	{
310	state = quotingEscapingState
311	value = append(value, nextRune)
312	}
313	}
314	}
315	case quotingEscapingState: // in escaping double quotes
316	{
317	switch nextRuneType {
318	case eofRuneClass:
319	{
320	err = fmt.Errorf("EOF found when expecting closing quote")
321	token := &Token{
322	tokenType: tokenType,
323	value: string(value)}
324	return token, err
325	}
326	case escapingQuoteRuneClass:
327	{
328	state = inWordState
329	}
330	case escapeRuneClass:
331	{
332	state = escapingQuotedState
333	}
334	default:
335	{
336	value = append(value, nextRune)
337	}
338	}
339	}
340	case quotingState: // in non-escaping single quotes
341	{
342	switch nextRuneType {
343	case eofRuneClass:
344	{
345	err = fmt.Errorf("EOF found when expecting closing quote")
346	token := &Token{
347	tokenType: tokenType,
348	value: string(value)}
349	return token, err
350	}
351	case nonEscapingQuoteRuneClass:
352	{
353	state = inWordState
354	}
355	default:
356	{
357	value = append(value, nextRune)
358	}
359	}
360	}
361	case commentState: // in a comment
362	{
363	switch nextRuneType {
364	case eofRuneClass:
365	{
366	token := &Token{
367	tokenType: tokenType,
368	value: string(value)}
369	return token, err
370	}
371	case spaceRuneClass:
372	{
373	if nextRune == '\n' {
374	state = startState
375	token := &Token{
376	tokenType: tokenType,
377	value: string(value)}
378	return token, err
379	} else {
380	value = append(value, nextRune)
381	}
382	}
383	default:
384	{
385	value = append(value, nextRune)
386	}
387	}
388	}
389	default:
390	{
391	return nil, fmt.Errorf("Unexpected state: %v", state)
392	}
393	}
394	}
395	}
396
397	// Next returns the next token in the stream.
398	func (t Tokenizer) Next() (Token, error) {
399	return t.scanStream()
400	}
401
402	// Split partitions a string into a slice of strings.
403	func Split(s string) ([]string, error) {
404	l := NewLexer(strings.NewReader(s))
405	subStrings := make([]string, 0)
406	for {
407	word, err := l.Next()
408	if err != nil {
409	if err == io.EOF {
410	return subStrings, nil
411	}
412	return subStrings, err
413	}
414	subStrings = append(subStrings, word)
415	}
416	}

Note: See TracBrowser for help on using the repository browser.

Download in other formats: