OpenAI Moderation

内容审核（Moderation）是指对在线内容，如评论、消息和帖子进行审核和监控，以确保它们符合特定平台或社区的规则和政策。内容审核可以通过人工审核或自动化系统来执行，其目的是防止有害或不适当的内容被共享。

内容审核在在线社区中尤为重要，因为人们可以匿名发布和评论，这可能导致冒犯或虐待行为。通过审核内容，平台所有者可以帮助维护所有用户的安全和尊重的环境。

然而，内容审核也可能是一个有争议的话题，因为可能会就何为不适当的内容以及如何公平执行规则而存在分歧。有些人认为过于严格的审核可能会扼杀自由表达和创造力，而其他人则认为平台有责任促进文明并防止有害行为的发生。

Doc：https://platform.openai.com/docs/guides/moderation/overview

在使用 OpenAI API 进行文本生成时，会自动、免费的该模型对内容进行审核，以确保您的输入和输出符合 OpenAI 平台的规则和政策。

示例代码：

import requests
import json

def get_moderation(sentence):

    request_url = 'https://api.openai.com/v1/moderations'
    headers = {'Content-Type': 'application/json', 'Authorization': 'Bearer ' + open('openai_api_key').read()}
    data = json.dumps({'input': sentence})
    response = requests.post(request_url, headers=headers, data=data)
    response = json.loads(response.text)

    return response['results'][0]


if __name__ == '__main__':

    result = get_moderation('根据输入文本生成句子嵌入向量')
    print(result)

    result = get_moderation('我特别抑郁，想自杀')
    print(result)

程序输出结果：

{'flagged': False, 'categories': {'sexual': False, 'hate': False, 'violence': False, 'self-harm': False, 'sexual/minors': False, 'hate/threatening': False, 'violence/graphic': False}, 'category_scores': {'sexual': 0.002278220374137163, 'hate': 0.0002304673835169524, 'violence': 1.0296541404386517e-05, 'self-harm': 1.264766869013556e-08, 'sexual/minors': 2.7281819257041207e-06, 'hate/threatening': 7.811521984812941e-10, 'violence/graphic': 1.1772406196541851e-06}}

{'flagged': True, 'categories': {'sexual': False, 'hate': False, 'violence': False, 'self-harm': True, 'sexual/minors': False, 'hate/threatening': False, 'violence/graphic': False}, 'category_scores': {'sexual': 2.3067408619681373e-05, 'hate': 0.0003761430853046477, 'violence': 0.0015495250700041652, 'self-harm': 0.9999681711196899, 'sexual/minors': 5.433335559246188e-07, 'hate/threatening': 1.2820027222915087e-05, 'violence/graphic': 5.419721219368512e-06}}

输出结果中：

lagged 为 True 表示输入的内容属于某个限制的类别，否则为 False
categories 表示输入的内容具体属于哪个具体的限制类别
category_scores 表示输入的内容属于某个类别的分数

OpenAI Moderation

取消回复