推荐的用于标记或标记的SQL数据库设计

Recommended SQL database design for tags or tagging

我听说过几种实施标记的方法；使用TagID和ItemID之间的映射表(对我来说有意义，但是可以缩放吗？)，向ItemID添加固定数量的可能的TagID列(似乎是个坏主意)，将标签保持在逗号分隔的文本列中(声音疯狂但可以工作)。我什至听说有人建议使用稀疏矩阵，但是标签名称又如何优雅地增长呢？

我是否错过了标签的最佳做法？

三个表(一个用于存储所有项目，一个用于所有标签，一个用于两者之间的关系)已正确索引，并且在适当的数据库上运行了外键，这些表应该可以正常工作并可以适当扩展。

1
2
3
4
5
6
7
8

TABLE: Item
COLUMNS: ItemID, Title, Content

TABLE: Tag
COLUMNS: TagID, Title

TABLE: ItemTag
COLUMNS: ItemID, TagID

通常，我会同意Yaakov Ellis的观点，但是在这种特殊情况下，还有另一个可行的解决方案：

使用两个表：

1
2
3
4
5
6
7

TABLE: Item
COLUMNS: ItemID, Title, Content
Indexes: ItemID

TABLE: Tag
COLUMNS: ItemID, Title
Indexes: ItemId, Title

这具有一些主要优点：

首先，它使开发变得更加简单：在用于item的插入和更新的三表解决方案中，您必须查找Tag表以查看是否已经有条目。然后，您必须与新成员一起加入。这不是小事。

然后，它使查询更简单(也许更快)。您将执行三个主要的数据库查询：输出所有Tags到一个item，绘制一个标签云，并为一个标签标题选择所有项目。

一个项目的所有标签：

3桌：

1
2
3
4

SELECT Tag.Title
FROM Tag
JOIN ItemTag ON Tag.TagID = ItemTag.TagID
WHERE ItemTag.ItemID = :id

2表：

1
2
3

SELECT Tag.Title
FROM Tag
WHERE Tag.ItemID = :id

标签云：

3桌：

1
2
3
4

SELECT Tag.Title, COUNT(*)
FROM Tag
JOIN ItemTag ON Tag.TagID = ItemTag.TagID
GROUP BY Tag.Title

2表：

1
2
3

SELECT Tag.Title, COUNT(*)
FROM Tag
GROUP BY Tag.Title

一个标签的项目：

3桌：

1
2
3
4
5

SELECT Item.*
FROM Item
JOIN ItemTag ON Item.ItemID = ItemTag.ItemID
JOIN Tag ON ItemTag.TagID = Tag.TagID
WHERE Tag.Title = :title

2表：

1
2
3
4

SELECT Item.*
FROM Item
JOIN Tag ON Item.ItemID = Tag.ItemID
WHERE Tag.Title = :title

但是也有一些缺点：它可能会占用数据库中更多的空间(这可能会导致更多的磁盘操作，速度变慢)，并且未规范化这可能会导致不一致。

size参数不是很强，因为标签的本质是标签通常很小，因此尺寸增加不是很大。有人可能会说，在一个只包含每个标签一次的小表中，对标签标题的查询要快得多，这当然是正确的。但是考虑到不必加入而节省下来的钱，以及可以在它们上建立良好索引的事实，很容易就能弥补这一点。当然，这在很大程度上取决于您所使用的数据库的大小。

不一致的论点也有一点争议。标签是自由文本字段，没有预期的操作，例如"将所有标签" foo"重命名为" bar""。

tldr：我会寻求两张桌子的解决方案。 (实际上，我要去。我找到了这篇文章，以查看是否有反对它的有效论点。)

如果您使用的是支持map-reduce的数据库(例如，couchdb)，则将标签存储在纯文本字段或列表字段中确实是最好的方法。例：

1
2
3
4
5
6
7
8
9
10