关于regex：解析字符串：提取单词和短语[JavaScript]

2023-04-19 16:28:58

关于regex：解析字符串：提取单词和短语[JavaScript]

parsings strings: extracting words and phrases [JavaScript]

我需要在用空格分隔的术语列表中支持确切的短语(用引号引起来)。
因此，用空格字符分割各个字符串已不再足够。

例：

1 2	input : 'foo bar"lorem ipsum" baz' output: ['foo', 'bar', 'lorem ipsum', 'baz']

我想知道是否可以通过单个RegEx而不是执行复杂的解析或拆分和重新合并操作来实现。

任何帮助将不胜感激！

1 2	var str = 'foo bar"lorem ipsum" baz'; var results = str.match(/("[^"]+"\|[^"\s]+)/g);

...返回您要查找的数组。
但是请注意：

包含引号，因此可以在结果上用replace(/^"([^"]+)"$/,"$1")删除。
引号之间的空格将保持不变。因此，如果lorem和ipsum之间存在三个空格，它们将出现在结果中。您可以通过在结果上运行replace(/\s+/,"")来解决此问题。
如果ipsum之后没有结尾的"(即，报价错误的短语)，您将得到：['foo', 'bar', 'lorem', 'ipsum', 'baz']

尝试这个：

1
2
3
4
5

var input = 'foo bar"lorem ipsum" baz';
var R = /(\w|\s)*\w(?=")|\w+/g;
var output = input.match(R);

output is ["foo","bar","lorem ipsum","baz"]

请注意，lorem ipsum周围没有多余的双引号

尽管它假定输入在正确的位置具有双引号：

1
2
3
4
5

var input2 = 'foo bar lorem ipsum" baz'; var output2 = input2.match(R);
var input3 = 'foo bar"lorem ipsum baz'; var output3 = input3.match(R);

output2 is ["foo bar lorem ipsum","baz"]
output3 is ["foo","bar","lorem","ipsum","baz"]

并且不会处理转义的双引号(这是一个问题吗？)：

1
2
3
4

var input4 = 'foo b"ar bar" "bar"lorem ipsum" baz';
var output4 = input4.match(R);

output4 is ["foo b","ar bar","bar","lorem ipsum","baz"]

非常感谢您的快速回复！

这是后代选项的摘要：

1
2
3
4
5
6
7

var input = 'foo bar"lorem ipsum" baz';

output = input.match(/("[^"]+"|[^"\s]+)/g);
output = input.match(/"[^"]*"|\w+/g);
output = input.match(/("[^"]*")|([^\s"]+)/g)
output = /(".+?"|\w+)/g.exec(input);
output = /"(.+?)"|(\w+)/g.exec(input);

作为记录，这是我想出的可憎之处：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29

var input = 'foo bar"lorem ipsum""dolor sit amet" baz';
var terms = input.split("");

var items = [];
var buffer = [];
for(var i = 0; i < terms.length; i++) {
if(terms[i].indexOf('"') != -1) { // outer phrase fragment -- N.B.: assumes quote is either first or last character
if(buffer.length === 0) { // beginning of phrase
//console.log("start:", terms[i]);
buffer.push(terms[i].substr(1));
} else { // end of phrase
//console.log("end:", terms[i]);
buffer.push(terms[i].substr(0, terms[i].length - 1));
items.push(buffer.join(""));
buffer = [];
}
} else if(buffer.length != 0) { // inner phrase fragment
//console.log("cont'd:", terms[i]);
buffer.push(terms[i]);
} else { // individual term
//console.log("standalone:", terms[i]);
items.push(terms[i]);
}
//console.log(items,"
", buffer);
}
items = items.concat(buffer);

//console.log(items);

怎么样，

1	output = /(".+?"\|\w+)/g.exec(input)

然后传递输出以丢失引号。

交替，

1	output = /"(.+?)"\|(\w+)/g.exec(input)

然后执行pass n输出以丢失空捕获。

ES6解决方案支持：

除空格外，按空格分隔
删除引号，但不删除反斜杠转义引号
转义报价成为报价

码：

1
2
3
4
5
6
7
8
9
10

input.match(/\\?.|^$/g).reduce((p, c) => {
if(c === '"'){
p.quote ^= 1;
}else if(!p.quote && c === ' '){
p.a.push('');
}else{
p.a[p.a.length-1] += c.replace(/\\(.)/,"$1");
}
return p;
}, {a: ['']}).a

输出：

1	[ 'foo', 'bar', 'lorem ipsum', 'baz' ]

这可能是一个很晚的答案，但我有兴趣回答

1	([\w]+\|"[\w\s]+")

http://regex101.com/r/dZ1vT6/72

纯JavaScript示例

1	'The rain in"SPAIN stays" mainly in the plain'.match(/[\w]+\|"[\w\s]+"/g)

输出：

1	["The","rain","in",""SPAIN stays"","mainly","in","the","plain"]

一个简单易懂的解决方案。适用于所有定界符和" join"字符。还支持长度超过两个单词的"连接"单词。

"hello my name is 'jon delaware smith fred' I have a 'long name'" ....

有点像AC的答案，但有点整洁...

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

function split(input, delimiter, joiner){
var output = [];
var joint = [];
input.split(delimiter).forEach(function(element){
if (joint.length > 0 && element.indexOf(joiner) === element.length - 1)
{
output.push(joint.join(delimiter) + delimiter + element);
joint = [];
}
if (joint.length > 0 || element.indexOf(joiner) === 0)
{
joint.push(element);
}
if (joint.length === 0 && element.indexOf(joiner) !== element.length - 1)
{
output.push(element);
joint = [];
}
});
return output;
}

一个简单的正则表达式将起作用，但会保留引号。例如

1 2	'foo bar"lorem ipsum" baz'.match(/("[^"]*")\|([^\s"]+)/g) output: ['foo', 'bar', '"lorem ipsum"', 'baz']

编辑：被shyamsundar殴打，对不起，双重回答

1	'foo bar"lorem ipsum" baz'.match(/"[^"]*"\|\w+/g);

尽管包含了边界引号

字符串支持字符术语

推荐阅读

笔记本电脑不支持混音|笔记本电脑不支持混

笔记本电脑不支持混音|笔记本电脑不支持混音怎么办，，1. 笔记本电脑不支持混音怎么办如果在线给别人播放音乐、在线KTV等，电脑声卡都得支持

AMD平台专业术语

AMD平台专业术语，，1. AMD VISION技术 AMD公司曾经发布过的一份调查报告显示，消费者推迟购买硬件是由于他们对PC术语感到困惑。因此，AMD公

你支持800万用户Firefox吗如何能在火狐浏览

你支持800万用户Firefox吗如何能在火狐浏览器上中国的道路，，2月1日，百事可乐的网络新闻晚报：中国浏览器市场的竞争也许比世界上任何地方更大

正式发布的小米9支持5G信号吗对此你怎么看

正式发布的小米9支持5G信号吗对此你怎么看，小米,怎么看，正式发布的小米9支持5G信号吗对此你怎么看感谢您的阅读！我只想给一张图给雷军，听说

支持高清的下一代：新版本的WinDVD出炉！{图}

支持高清的下一代：新版本的WinDVD出炉！{图}，，今天，InterVideo WinDVD铂已经发布了新版本，版本号是6，建立6.083.industry人认为新版本是为未来而

字符库快捷键|字符串快捷键

字符库快捷键|字符串快捷键，，1. 字符串快捷键1、单行注释单行注释是 #Mac的快捷键是 command+/windows的快捷键是 Ctrl + /2、多行注

wps插入罗马字符页码|wps插入罗马数字

wps插入罗马字符页码|wps插入罗马数字，罗马,页码,插入,字符，1.wps怎样插入罗马数字WPS里面插入罗马数字的方法（以WPS文字为例）：（1）使用WPS里面

鸿蒙这么优秀，为什么大家不支持一下国产华为

鸿蒙这么优秀，为什么大家不支持一下国产华为，华为,鸿蒙，鸿蒙这么优秀，为什么大家不支持一下国产华为在支持，很多企业已经入场鸿蒙了，没告诉我

电脑系统一般多大内存|电脑系统支持多大内

电脑系统一般多大内存|电脑系统支持多大内存，，电脑系统支持多大内存win10系统盘空间需要大于16GB(32位系统) 或20GB(64位系统)。1、实际在

怎么解决Win10显示器输入不支持导致系统无

怎么解决Win10显示器输入不支持导致系统无法运行，不支持,显示器，　　很多用户在使用win10系统过程中会进行分辨率设置，但是设置之后可能会

1分钟学会在C++中将图像转换为Word文档，快速

1分钟学会在C++中将图像转换为Word文档，快速入手光学字符处理控件Aspose.OCR！，图像,转换为，图像和扫描的文档可能包含您可能需要进一步处理

支持DDR3！AM3接口790gx主板的评价

支持DDR3！AM3接口790gx主板的评价，，二月，在主板市场，各种各样的AM3主板将推出。对Phenom II处理器的刺激下，每一个主板制造商不能忽视这样一个

三星大器五g9298支持电信吗

三星大器五g9298支持电信吗，比我,我的，三星大器五g9298支持电信吗领g9298（旗舰8）是双卡双 - 置单式手机。它支持Mobile，Unicom 2G/3G/4G网络，

Windows 11迎来首个原生支持ARM64的Visual

Windows 11迎来首个原生支持ARM64的Visual Studio预览，WPS教程，　　在几周前的 Build 2022 开发者大会上，微软宣布了名为 Project Volterra

电脑云爵x58主板显卡|支持x58主板的显卡

电脑云爵x58主板显卡|支持x58主板的显卡，，支持x58主板的显卡X58的主板显示接口是PCIE-2的没办法支持GTX770的全新PCIE-3接口。770安在X58