Foundation — CharacterSet

在 iOS 和 macOS 开发中,CharacterSet 是 Swift 编程语言中用于描述字符的集合的一个结构体。它在处理诸如字符串过滤、验证和匹配等操作时非常有用。

以下是对 CharacterSet 的详细介绍:


什么是 CharacterSet#

CharacterSet 在 Swift 和 Foundation 框架中定义,用于表示一组 Unicode 字符。这可以包括字母、数字、标点符号、空白符或任何 Unicode 范围的字符。开发者可以使用它来高效地检查字符串中的字符是否属于特定的集合,或者通过它从字符串中过滤字符。


常见的系统预定义字符集 #

CharacterSet 提供了许多常用的系统预定义字符集,以下是一些常见的集合及其用途:

1. 字母和数字字符 #

  • alphanumerics: 包括所有字母和数字 ([a-zA-Z0-9])。
  • letters: 包括所有字母字符(仅字母,不含数字)。
  • decimalDigits: 包括所有数字字符(0-9)。

2. 空白和换行符 #

  • whitespaces: 包括所有空格字符(不包括换行符)。
  • whitespacesAndNewlines: 包括所有空格字符 换行符。

3. 符号和标点 #

  • symbols: 包括符号字符,例如 $, &, #
  • punctuationCharacters: 包括常见的标点符号(如 .!, 等)。

4. 其他通用集合 #

  • controlCharacters: 包括所有的控制字符(如换行符、回车字符等)。
  • newlines: 包括各种换行符,例如 , \r, 行分隔符等。
  • urlHostAllowed: URL 中允许的主机字符。
  • urlPathAllowed: URL 路径中允许的字符。
  • urlQueryAllowed: URL 查询字符串中允许的字符。
  • urlFragmentAllowed: URL 片段标识符中允许的字符。

常见用法 #

1. 移除不需要的字符 #

使用 CharacterSet 可以从字符串中高效地移除不需要的字符。例如:

import Foundation

let input = "Hello, World! "
let trimmed = input.trimmingCharacters(in: .whitespaces) // 移除字符串首尾的空格
print(trimmed) // 输出 "Hello, World!"

2. 过滤特定字符 #

通过 CharacterSet 可以从字符串中过滤掉特定的字符。例如,移除标点符号:

import Foundation

let input = "Hello, World!"
let letters = input.unicodeScalars.filter { CharacterSet.letters.contains($0) }
let result = String(String.UnicodeScalarView(letters))
print(result) // 输出 "HelloWorld"

3. 验证字符是否合法 #

如果你需要验证字符串中的字符是否都属于某个集合,可以使用 isSubset(of:) 方法。例如,检查字符串是否为数字:

import Foundation

let input = "12345"
let isNumeric = input.unicodeScalars.allSatisfy { CharacterSet.decimalDigits.contains($0) }
print(isNumeric) // 输出 true

4. 自定义字符集 #

你可以创建自己的 CharacterSet,并将其与字符串操作结合使用。例如,创建一个仅包含英文字母和空格的字符集:

import Foundation

let customCharacterSet = CharacterSet(charactersIn: "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ ")
let input = "Hello World!"
let filtered = input.unicodeScalars.filter { customCharacterSet.contains($0) }
let result = String(String.UnicodeScalarView(filtered))
print(result) // 输出 "Hello World"

扩展:NSCharacterSet #

在 Swift 的早期版本中(或者在 Objective-C 开发中),我们使用的是 NSCharacterSet,它是 CharacterSet 的 Objective-C 版本。现在,CharacterSet 是更现代化的 API,推荐用它来代替 NSCharacterSet。不过,它们之间可以互操作:

let nsCharacterSet = NSCharacterSet.letters // Objective-C 形式
let swiftCharacterSet = CharacterSet.letters // Swift 版本

性能优化 #

  • Unicode 标量优化: CharacterSet 基于 Unicode 的编码方式,因此在处理大量的字符过滤或验证时比逐字符遍历更加高效。
  • 批量操作: 利用集合操作直接过滤或验证字符串,而不是一个字符一个字符检查。

通过掌握 CharacterSet,开发者可以简洁且高效地处理字符串中的各种字符操作,无论是过滤不需要的字符、验证输入合法性,还是处理特定的字符匹配。

本文共 1085 字,上次修改于 Jan 14, 2025