前言
本文讲解string串的使用和一些简单的模拟实现,内容丰富,干货多多!
1. string简介
C语言中,字符串是以'\0'结尾的一些字符的集合,为了操作方便,C标准库中提供了一些str系列的库函数,但是这些库函数和字符串是分离的。不符合面向对象程序设计的思想,而且底层空间需要用户自己管理,如果不细心,容易访问越界。
所以C++标准库以string类来表示字符串,更加简单,方便。
- 字符串是表示字符序列的对象。
- 标准string类通过类似于标准字节容器的接口提供了对此类对象的支持,但添加了专门设计用于操作单字节字符串的特性。
- string类是basic_string类模板的实例化,该模板使用char(即字节)作为其字符类型,具有默认的char_traits和allocator类型(有关模板的更多信息,请参阅basic_string)。
- 请注意,该类处理字节独立于所使用的编码:如果用于处理多字节或变长字符序列(如UTF-8),则该类的所有成员(如length或size)及其迭代器仍将以字节(而不是实际编码的字符)进行操作。
2. string的使用和简单模拟实现
2.1 string类的定义
string类是本贾尼C++之父实现的,但是初次实现难免有许多不足,如接口函数过多,接口函数重载过多,导致string类十分复杂。我们对string类进行简单的模拟实现,不过是实现一些常用的接口函数,主要是粗浅地了解其中的原理。
- 因为string这个容器专门针对字符,没有使用类模版,所以定义和声明需要分离,准备两个文件string.h和string.cpp。string.h存放类的声明,string.cpp各种类成员函数和变量的定义。
- 为了不跟C++标准库里面的string发生命名冲突,可以将类放在命名空间中,并且这两个文件可以使用同一个命名空间,编译的过程中就会合并。
- 因为string物理存储空间本质上是连续的,不是链表那种随机存储的。迭代器使用char*原生的字符指针就可以模拟,不过实际的string的迭代器基本是用类封装实现。
#define _CRT_SECURE_NO_WARNINGS #pragma once #include <iostream> #include <assert.h> using namespace std; namespace Rustle { class string { public: typedef char* iterator; typedef const char* const_iterator; iterator begin(); iterator end(); const_iterator begin() const; const_iterator end() const; //构造函数 //string(); string(const char* str = ""); //拷贝构造函数 string(const string& s); //赋值拷贝函数 //string& operator=(const string& s); string& operator=(string tmp); //析构函数 ~string(); void swap(string& s); const char* c_str() const; size_t size() const; char& operator[](size_t pos); const char& operator[](size_t pos) const; void reserve(size_t n); void push_back(char ch); void append(const char* str); string& operator+=(char ch); string& operator+=(const char* str); void insert(size_t pos, char ch); void insert(size_t pos, const char* str); void erase(size_t pos, size_t len = npos); size_t find(char ch, size_t pos = 0); size_t find(const char* str, size_t pos = 0); string substr(size_t pos = 0, size_t len = npos); bool operator<(const string& s)const; bool operator>(const string& s)const; bool operator<=(const string& s)const; bool operator>=(const string& s)const; bool operator==(const string& s)const; bool operator!=(const string& s)const; void clear(); private: char* _str = nullptr;//置空 size_t _size = 0; size_t _capacity = 0; const static size_t npos; }; istream& operator>>(istream& is, string& str); ostream& operator<<(ostream& os, const string& str); }
2.2 string(),~string()和c_str()
- 构造函数如果使用第一种写法,将所有成员变量使用初始化列表进行初始化。一般来说是可以的,但是每一次都需要调用strlen这个库函数,会消耗时间。
- 可能有的人会用第二种写法,交换一下初始化列表中的顺序,先将_size初始化,之后的成员变量直接使用_size就行。但是初始化列表初始化的顺序跟函数中初始化列表顺序无关,只跟成员变量声明的顺序有关。
- 最好的解决方案就是第三种构造函数的写法,先使用初始化列表进行初始化,然后在函数内部进行动态开辟一块与str相同大小的空间,使用strcpy拷贝str字符串的内容,strcpy还会自动在字符串末尾加上斜杠0。
- 需要注意的是,_size指的是字符串的大小,_capacity指的是斜杠0之前的字符个数,不包含斜杠0。所以之前_str中空间大小事_size+1,给斜杠0预留一个空间。
- 析构函数先释放_str指向的空间,然后_str置为空指针,其他两个成员变量置为0。
- 有些时候需要像C语言一样访问字符串,而string是一个类无法直接访问,c_str函数就是解决这种问题,这个函数可以获取_str指针,即第一个字符的地址。
namespace Greg { //1. string::string(const char* str) :_str(new char[strlen(str) + 1]) ,_size(strlen(str)) ,_capacity(strlen(str)) { assert(str); strcpy(_str, str); } //2. string::string(const char* str) :_size(strlen(str)) ,_str(new char[_size + 1]) ,_capacity(_size) { assert(str); strcpy(_str, str); } //全缺省构造函数 string::string(const char* str) :_size(strlen(str)) { assert(str); //初始化列表和函数内部初始化混合着用 _str = new char[_size + 1]; _capacity = _size; strcpy(_str, str); } string::~string() { delete[] _str; _str = nullptr; _size = _capacity = 0; } const char* string::c_str() const { return _str; } }
写一个测试函数,也放在Rustle命名空间中,这样就string前面不用加域名限制符。
namespace Rustle { void test_string1() { string s1("hello world"); cout << s1.c_str() << endl; } }
运行结果如下:
2.2 size,重载符号[ ],begin和end函数
- size是获取字符个数的函数,直接返回_size就好。
- [ ]下标访问符,跟vector容器作用相似,访问pos下标的元素,需要先断言检查pos是不是在合理的范围,然后直接返回_str[pos]即可。不过返回类型是字符类型的引用,这样可以对该字符进行修改
- begin函数是返回字符串的第一个字符的地址,还有一个const修饰函数,算是函数重载。因为string类对象可能也被const修饰。
- end函数返回的是字符串最后一字符的下一个位置,由于下标是从0开始的,直接返回_str+_size即可。
string::iterator string::begin() { return _str; } string::iterator string::end() { return _str + _size; } string::const_iterator string::begin() const { return _str; } string::const_iterator string::end() const { return _str+ _size; } size_t string::size() const { return _size; } char& string::operator[](size_t pos) { assert(pos < _size); return _str[pos]; } const char& string::operator[](size_t pos) const { assert(pos < _size); return _str[pos]; } }
写一个测试函数,用下标访问,迭代器访问,还有范围for循环访问。范围for的底层就是需要识别有没有begin和end函数。
void test_string1() { string s1("hello world"); cout << s1.c_str() << endl; for (size_t i = 0; i < s1.size(); i++) { cout << s1[i] << " "; } cout << endl; for (auto e : s1) { cout << e << " "; } cout << endl; string::iterator it1 = s1.begin(); while (it1 != s1.end()) { cout << *it1 << " "; ++it1; } cout << endl; const string s3("xxxxxx"); string::const_iterator it2 = s3.begin(); while (it2 != s3.end()) { cout << *it2 << " "; ++it2; } cout << endl; }
运行结果如下:
2.3 push_back,reserve,append,+=运算符重载
接口函数声明如下,其中+=运算符重载函数有两个重载,针对的是字符和字符串的。
void reserve(size_t n); void push_back(char ch); void append(const char* str); string& operator+=(char ch); string& operator+=(const char* str);
- reserve就是调整容量的函数。我们需要手动扩容。先开辟一个新容量大小的空间,然后使用strcpy库函数将原字符串内容拷贝到tmp指针指向的空间上,再释放_str指向的空间。让_str指针指向tmp指向的空间,修改_capacity的大小。
- push_back函数是在字符串的末尾加上一个字符。首先,我们要判断字符串的容量是否足够。当_size和_capacity相等时,说明字符串容量已满,需要扩容。我们定义一个newcapacity变量,如果_capacity等于0,说明还没有开空间,先给四个字符大小的容量大小,如果不等于0,按两倍扩容。扩容之后,在_size下标位置添加ch字符,并且需要单独处理斜杠0,加在新字符的后一个位置。修改_size。
- append函数在原字符串上追加新字符串,会覆盖原字符串。先定义len表示新字符串字符的个数,再判断加上新字符串后是否超过容量,超过容量要扩容。然后使用strcpy拷贝新字符串,再修改_size。
- +=运算符重载针对字符和字符串的两个函数,分别复用push_back和append函数即可。需要返回*this。
void string::reserve(size_t n) { if (n > _capacity) { //给斜杠0预留一个位置 char* tmp = new char[n + 1]; strcpy(tmp, _str); delete[] _str; _str = tmp; _capacity = n; } } void string::push_back(char ch) { if (_size == _capacity) { size_t newcapacity = _capacity == 0 ? 4 : _capacity * 2; reserve(newcapacity); } _str[_size] = ch; _str[_size + 1] = '\0';//单独处理斜杠0 ++_size; } void string::append(const char* str) { size_t len = strlen(str); if (_size + len > _capacity) { reserve(_size + len); } strcpy(_str + _size, str); _size += len; } //复用push_back和append函数 string& string::operator+=(char ch) { push_back(ch); return *this; } string& string::operator+=(const char* str) { append(str); return *this; }
写个测试函数,测试刚刚是模拟实现的函数。
void test_string2() { string s1("hello world"); cout << s1.c_str() << endl; s1.push_back('x'); cout << s1.c_str() << endl; s1.append("aaaaaa"); cout << s1.c_str() << endl; s1 += 'y'; cout << s1.c_str() << endl; s1 += "dfsdf"; cout << s1.c_str() << endl; }
运行结果如下:
2.4 insert和erase函数
- 上面是insert和erase函数的定义。insert函数从pos位置开始插入字符或者字符串,erase函数从pos位置开始,删除len个字符,其中len变量给了缺省值npos。
- npos是无符号整数,现在令npos = -1。如果
size_t
是 32 位的,那么npos
等于2^32 - 1
,即4294967295。
如果size_t
是 64 位的,那么npos
等于2^64 - 1
,即18446744073709551615。
总之是一个非常大的数字,表示直接到末尾。
class string { public: void insert(size_t pos, char ch); void insert(size_t pos, const char* str); void erase(size_t pos, size_t len = npos); private: const static size_t npos; }
- npos是一个静态变量需要定义和声明分离。
- 实现针对字符插入的insert函数。先判断是否需要扩容,然后需要挪动元素,当你定义一个无符号整型end变量时,尽量不要让无符号整数遇到大于等于或者小于等于符号,会有坑。
- 因为如果你while循环继续的条件是end >= pos,并且此时pos等于0的情况下,你不断让end减1,当end减到0时,再次减去1会变成-1,如上面所说相当于
2^32 - 1,会造成无限循环。
- 有两种解决方法,第一种就是不要出现等于符号,控制好end的位置。第二种是强转pos为int,这样使用等于判断就不会出现无限循环的情况。
- 针对字符串插入的insert函数,使用上面第一种方法挪动元素,while循环继续的条件比较难写出来,需要画图理解。
- 实现erase函数,先判断删除的字符个数和从pos位置的字符到结尾字符个数的大小关系。如果大于原字符的个数,直接将斜杠0放在pos位置的字符即可,在修改_size的大小。如果小于,需要挪动元素,可以使用strcpy将删除字符的最后一个位置拷贝到pos位置,就完成了删除和挪动的操作。
const size_t string::npos = -1; //1. void string::insert(size_t pos, char ch) { assert(pos <= _size); if (_size == _capacity) { size_t newcapacity = _capacity == 0 ? 4 : _capacity * 2; reserve(newcapacity); } //size_t无符号整数遇到大于等于有坑 size_t end = _size + 1; while (end > pos) { _str[end] = _str[end - 1]; --end; } _str[pos] = ch; ++_size; } //2. void string::insert(size_t pos, char ch) { assert(pos <= _size); if (_size == _capacity) { size_t newcapacity = _capacity == 0 ? 4 : _capacity * 2; reserve(newcapacity); } int end = _size; while (end >= (int)pos) { _str[end + 1] = _str[end]; --end; } _str[pos] = ch; ++_size; } //1. void string::insert(size_t pos, const char* str) { assert(pos <= _size); size_t len = strlen(str); if (_size + len > _capacity) { reserve(_size + len); } size_t end = _size + len; while (end > pos + len - 1)//!(pos + len - 1) { _str[end] = _str[end - len]; --end; } memcpy(_str + pos, str, len); _size += len; } //2. void string::insert(size_t pos, const char* str) { assert(pos <= _size); size_t len = strlen(str); if (_size + len > _capacity) { reserve(_size + len); } int end = _size; while (end >= (int)pos) { _str[end + len] = _str[end]; --end; } memcpy(_str + pos, str, len); _size += len; } void string::erase(size_t pos, size_t len) { assert(pos < _size); if (pos + len >= _size) { _str[pos] = '\0'; _size = pos; } else { strcpy(_str + pos, _str + pos + len); _size -= len; } }
写个测试函数。测试一下模拟实现的函数。
void test_string3() { string s1("hello world"); cout << s1.c_str() << endl; s1.insert(0, 'x'); cout << s1.c_str() << endl; string s2("helloworld"); s2.insert(5, "xxxx"); cout << s2.c_str() << endl; s2.erase(5, 4); cout << s2.c_str() << endl; }
运行结果如下:
2.5 find和substr函数
函数原型如下,find函数是查找某个字符或者字符串的位置,查找到返回该字符的下标位置或者该字符串第一个字符的位置。如果没有找到返回-1,是一个极大的数。substr函数是从pos位置开始,取下原字符串的子串,返回一个string类的对象。
size_t find(char ch, size_t pos = 0); size_t find(const char* str, size_t pos = 0); string substr(size_t pos = 0, size_t len = npos);
- 查找字符,直接遍历整个字符串查找,找到返回下标,没找到返回-1。
- 查找字符串,可以直接使用strstr库函数,或者使用其他查找子串的算法。
- 实现substr函数,先判断子串字符个数是否小于从pos位置开始的字符个数。如果大于,直接拷贝pos位置的字符串。如果小于,创建一个string类的临时对象,先调整容量为len个,这样就不会在频繁扩容。然后使用for循环一个个加等。
size_t string::find(char ch, size_t pos) { for (size_t i = 0; i < _size; i++) { if (_str[i] == ch) return i; } return npos; } size_t string::find(const char* str, size_t pos) { const char* end = strstr(_str, str); return end - _str; } string string::substr(size_t pos, size_t len) { //子串长度大于从原字符串给定位置开始到结束的长度,直接拷贝返回 if (len > _size - pos) { string sub(_str + pos); return sub; } else { string sub; sub.reserve(len); for (size_t i = 0; i < len; i++) { sub += _str[pos + i]; } return sub; } }
写一个测试用例,用于分割网址。
void test_string4() { string s1("helloworld"); cout << s1.find('o') << endl; cout << s1.find("orl") << endl; string url("https://legacy.cplusplus.com/reference"); size_t pos1 = url.find(":"); string url1 = url.substr(0, pos1); cout << url1 << endl; size_t pos2 = url.find('/', pos1 + 3); string url2 = url.substr(pos1 + 3, pos2 - (pos1 + 3)); cout << url2 << endl; string url3 = url.substr(pos2 + 1); cout << url3 << endl; }
运行结果如下:
2.6 比较运算符的重载
bool operator<(const string& s)const; bool operator>(const string& s)const; bool operator<=(const string& s)const; bool operator>=(const string& s)const; bool operator==(const string& s)const; bool operator!=(const string& s)const;
比较运算符,是比较字符的ASCii码值,可以写完<和==的逻辑,然后其他进行复用。
bool string::operator<(const string& s)const { return strcmp(_str, s._str) < 0; } bool string::operator>(const string& s)const { return !(*this < s) && !(*this == s); } bool string::operator<=(const string& s)const { return *this < s || *this == s; } bool string::operator>=(const string& s)const { return *this < s || *this == s; } bool string::operator==(const string& s)const { return strcmp(_str, s._str) == 0; } bool string::operator!=(const string& s)const { return !(*this == s); }
2.7 cout<<和cin>>运算符重载
重载流插入<<和流提取>>这两个操作符,是为了方便打印和输入。并且这是放在全局的函数。
istream& operator>>(istream& is, string& str); ostream& operator<<(ostream& os, const string& str);
- 流插入<<函数容易实现,直接for循环遍历打印每个字符即可,不过你可以按照你的意愿打印任何形式。
- 流提取<<函数比较难实现。首先写一个clear函数,清理掉之前的字符串里的字符,可以直接将斜杠0放在下标为0的位置,再修改_size就好了。
- 首先,我们不能直接使用is >> ch来提取字符,因为一遇到空格或者换行就表示分割。可以使用is.get()函数完成输入操作。然后,我们先创建一个字符数组,输入的字符填到字符数组先,满了在加载字符串中,可以防止频繁扩容,带来的消耗。
ostream& operator<<(ostream& os, const string& str) { for (size_t i = 0; i < str.size(); i++) { os << str[i]; } return os; } void string::clear() { _str[0] = '\0'; _size = 0; } istream& operator>>(istream& is, string& str) { //空格和换行表示多个值的分割 //is >> ch; //scanf("%c", &ch); str.clear(); int i = 0; char buff[128]; char ch = is.get(); while (ch != ' ' && ch != '\n') { buff[i++] = ch; //0~126的位置放字符了,留一个位置给斜杠0 //减少频繁扩容 if (i == 127) { buff[i] = '\0'; str += buff; i = 0; } ch = is.get(); } if (i != 0) { buff[i] = '\0'; str += buff; } return is; }
写个测试函数。
void test_string7() { //string s1("hello world"); string s1; cout << s1 << endl; cin >> s1; cout << s1 << endl; }
运行结果如下:
总结
以上就是C++ string字符串的使用和简单模拟实现的详细内容,更多关于C++ string使用和实现的资料请关注其它相关文章!