OpenAI Moderation

内容审核(Moderation)是指对在线内容,如评论、消息和帖子进行审核和监控,以确保它们符合特定平台或社区的规则和政策。内容审核可以通过人工审核或自动化系统来执行,其目的是防止有害或不适当的内容被共享。

内容审核在在线社区中尤为重要,因为人们可以匿名发布和评论,这可能导致冒犯或虐待行为。通过审核内容,平台所有者可以帮助维护所有用户的安全和尊重的环境。

然而,内容审核也可能是一个有争议的话题,因为可能会就何为不适当的内容以及如何公平执行规则而存在分歧。有些人认为过于严格的审核可能会扼杀自由表达和创造力,而其他人则认为平台有责任促进文明并防止有害行为的发生。

Doc:https://platform.openai.com/docs/guides/moderation/overview

在使用 OpenAI API 进行文本生成时,会自动、免费的该模型对内容进行审核,以确保您的输入和输出符合 OpenAI 平台的规则和政策 。

示例代码:

import requests
import json

def get_moderation(sentence):

    request_url = 'https://api.openai.com/v1/moderations'
    headers = {'Content-Type': 'application/json', 'Authorization': 'Bearer ' + open('openai_api_key').read()}
    data = json.dumps({'input': sentence})
    response = requests.post(request_url, headers=headers, data=data)
    response = json.loads(response.text)

    return response['results'][0]


if __name__ == '__main__':

    result = get_moderation('根据输入文本生成句子嵌入向量')
    print(result)

    result = get_moderation('我特别抑郁,想自杀')
    print(result)

程序输出结果:

{'flagged': False, 'categories': {'sexual': False, 'hate': False, 'violence': False, 'self-harm': False, 'sexual/minors': False, 'hate/threatening': False, 'violence/graphic': False}, 'category_scores': {'sexual': 0.002278220374137163, 'hate': 0.0002304673835169524, 'violence': 1.0296541404386517e-05, 'self-harm': 1.264766869013556e-08, 'sexual/minors': 2.7281819257041207e-06, 'hate/threatening': 7.811521984812941e-10, 'violence/graphic': 1.1772406196541851e-06}}

{'flagged': True, 'categories': {'sexual': False, 'hate': False, 'violence': False, 'self-harm': True, 'sexual/minors': False, 'hate/threatening': False, 'violence/graphic': False}, 'category_scores': {'sexual': 2.3067408619681373e-05, 'hate': 0.0003761430853046477, 'violence': 0.0015495250700041652, 'self-harm': 0.9999681711196899, 'sexual/minors': 5.433335559246188e-07, 'hate/threatening': 1.2820027222915087e-05, 'violence/graphic': 5.419721219368512e-06}}

输出结果中:

  1. lagged 为 True 表示输入的内容属于某个限制的类别,否则为 False
  2. categories 表示输入的内容具体属于哪个具体的限制类别
  3. category_scores 表示输入的内容属于某个类别的分数

未经允许不得转载:一亩三分地 » OpenAI Moderation
评论 (0)

2 + 7 =